
Resumo
-
DeepSeek desenvolveu um método que transforma texto em imagens para otimizar a memória de modelos de inteligência artificial.
-
O sistema usa menos tokens e ajuda a evitar o “context rot”, quando a IA perde a coerência das interações.
-
Os códigos e os pesos de treinamentos estão disponíveis no GitHub.
A empresa chinesa de inteligência artificial DeepSeek está trocando os tradicionais tokens de texto por “tokens visuais”, armazenando informações escritas como imagens compactadas. A ideia é que a técnica possa melhorar a capacidade de memória dos modelos de IA da companhia.
A abordagem, explicada em uma pesquisa publicada neste mês, foi testada em um novo modelo de Reconhecimento Óptico de Caracteres (OCR), que permite que o sistema retenha quase a mesma quantidade de informação usando menos tokens.
Essencialmente, a solução “tira uma foto” das páginas e armazena a informação como imagem. O método também usa compressão em camadas: dados mais antigos ficam “levemente borrados” para economizar espaço, mas sem perder a acessibilidade. Os códigos e os pesos de treinamento estão disponíveis no GitHub.

Método pode resolver problema da indústria
Atualmente, os LLMs quebram textos em milhares de unidades (tokens), um método que se torna caro em processamento à medida que as conversas se alongam. Isso causa o “context rot” (apodrecimento do contexto), fazendo a IA “esquecer” o início da interação e perder a coerência.
A abordagem da DeepSeek chamou rapidamente a atenção de pesquisadores de ponta da indústria de IA. Andrej Karpathy, ex-chefe da IA da Tesla e membro fundador da OpenAI, elogiou o documento publicado pela companhia chinesa em sua conta no X/Twitter. Segundo ele, os tokens de texto podem ser “desperdiçadores e simplesmente terríveis na entrada” e as imagens podem, em última análise, ser melhores para os LLMs.
À revista MIT Technology Review, a professora assistente de ciência da computação na Northwestern University, Manling Li, disse que, embora a ideia de usar tokens baseados em imagem não seja uma completa novidade, “este é o primeiro estudo que vi que a leva tão longe e mostra que pode realmente funcionar”.
A pesquisa da DeepSeek também aponta outra vantagem: a geração de dados de treinamento, um recurso que está se tornando escasso. O sistema de OCR da empresa, usando esse método, consegue gerar mais de 200 mil páginas de dados de treinamento por dia usando uma única GPU.
Modelo ainda é limitado

Apesar dos avanços, os pesquisadores apontam que este é apenas um primeiro passo. Li observa que o método da DeepSeek ainda trata a memória de forma linear — ou seja, lembrando o que foi mais recente.
Segundo ela, trabalhos futuros precisam explorar como fazer a memória da IA “desvanecer” de forma mais dinâmica, “semelhante a como podemos lembrar um momento transformador de anos atrás, mas esquecer o que comemos no almoço da semana passada”.
A DeepSeek já havia surpreendido a indústria no início deste ano ao lançar o DeepSeek-R1, que rivalizou com os principais sistemas do mercado usando muito menos recursos computacionais.
DeepSeek trabalha em “tokens visuais” para melhorar memória de IAs

