
A América Latina ganhou um modelo de linguagem (LLM) de código aberto para chamar de seu: o Latam-GPT. Anunciada nesta terça-feira (10), a IA foi desenvolvida pelo Centro Nacional de Inteligência Artificial do Chile (CENIA) em parceria com mais de 60 organizações espalhadas por 15 países da região, incluindo o Brasil.
- O que são tokens? Entenda como funciona a ‘unidade fundamental’ da IA
- Prompt, tokens, LLM e mais: 10 termos de IA essenciais para o seu dia a dia
Diferentemente de ferramentas dominantes no mercado, treinadas majoritariamente em inglês, o novo LLM foi alimentado com cerca de 300 bilhões de tokens em espanhol e português, algo em torno de 230 bilhões de palavras.
Todo esse acervo textual passou por curadoria rigorosa, com remoção de conteúdos nocivos, como notícias falsas e discriminação, e anonimização de informações pessoais, cobrindo áreas como humanidades, saúde, políticas públicas e culturas indígenas.
–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–
O projeto se apoia na arquitetura Llama 3.1, com 70 bilhões de parâmetros, e contou com infraestrutura de nuvem fornecida pela Amazon Web Services (AWS).
Segundo a empresa, a otimização dos recursos computacionais encurtou o período de treinamento de 25 para apenas 9 dias, uma redução de 64%.
O Banco de Desenvolvimento da América Latina e Caribe (CAF) e o Data Observatory também participaram do esforço.
Modelo aberto
Mais de cem pesquisadores, cientistas e engenheiros colaboraram na construção do Latam-GPT, que carrega um propósito específico: funcionar como bem público para democratizar o acesso à tecnologia e viabilizar seu uso em áreas estratégicas.
Por ter licença aberta, universidades, governos e startups podem adaptá-lo livremente para criar ferramentas próprias em campos como educação, empreendedorismo e administração estatal.
A escassez de material em idiomas latinos nos bancos globais de treinamento motivou a iniciativa. Estimativas baseadas no repositório Common Crawl indicam que textos em espanhol correspondem a cerca de 4% do total disponível, enquanto o português responde por apenas 2%.
Essa disparidade faz com que particularidades culturais, históricas e políticas do continente sejam ignoradas ou tratadas superficialmente pelos sistemas existentes.
Para o diretor do CENIA, Álvaro Soto, a ferramenta não é um produto final, mas um alicerce sobre o qual diferentes atores poderão erguer soluções ajustadas às suas realidades.
Leia mais:
- O que é OpenClaw (ex-Clawdbot)? Conheça o agente ‘faz tudo’ de IA
- O que é UCP? Conheça o protocolo de comércio para IA do Google
- O que é janela de contexto? Veja como funciona a atenção da IA
Leia a matéria no Canaltech.

