DeepSeek trabalha em “tokens visuais” para melhorar memória de IAs

Tecnologia
Resumo
  • DeepSeek desenvolveu um método que transforma texto em imagens para otimizar a memória de modelos de inteligência artificial.

  • O sistema usa menos tokens e ajuda a evitar o “context rot”, quando a IA perde a coerência das interações.

  • Os códigos e os pesos de treinamentos estão disponíveis no GitHub.

A empresa chinesa de inteligência artificial DeepSeek está trocando os tradicionais tokens de texto por “tokens visuais”, armazenando informações escritas como imagens compactadas. A ideia é que a técnica possa melhorar a capacidade de memória dos modelos de IA da companhia.

A abordagem, explicada em uma pesquisa publicada neste mês, foi testada em um novo modelo de Reconhecimento Óptico de Caracteres (OCR), que permite que o sistema retenha quase a mesma quantidade de informação usando menos tokens.

Essencialmente, a solução “tira uma foto” das páginas e armazena a informação como imagem. O método também usa compressão em camadas: dados mais antigos ficam “levemente borrados” para economizar espaço, mas sem perder a acessibilidade. Os códigos e os pesos de treinamento estão disponíveis no GitHub.

Diagrama de arquitetura do modelo DeepSeek-OCR, um modelo multimodal para Reconhecimento Óptico de Caracteres (OCR) e modelagem de documentos. O fluxo começa com a 'Input' (Entrada) de um documento, que é dividido em $n times 16 times 16$ patches. O processo de Tokenizer utiliza um bloco SAM (Segment Anything Model) e ViTDet 80M (para atenção local), seguido por uma camada de Conv (Convolução) para down-sample e gerar $n/16$ vision tokens. Estes tokens passam pelo DeepEncoder, que utiliza um bloco CLIP ViT 300M (para atenção global), gerando um Embedding layer. A saída do DeepEncoder é combinada (símbolo $oplus$) com um Prompt para ser processada pelo Decoder, que é o modelo de linguagem grande DeepSeek-3B (MOE-A570M), produzindo a 'Output' (Saída) final dos tokens reconhecidos.
Novos tokens da DeepSeek comprimem informação em imagem (imagem: reprodução/DeepSeek)

Método pode resolver problema da indústria

Atualmente, os LLMs quebram textos em milhares de unidades (tokens), um método que se torna caro em processamento à medida que as conversas se alongam. Isso causa o “context rot” (apodrecimento do contexto), fazendo a IA “esquecer” o início da interação e perder a coerência.

A abordagem da DeepSeek chamou rapidamente a atenção de pesquisadores de ponta da indústria de IA. Andrej Karpathy, ex-chefe da IA da Tesla e membro fundador da OpenAI, elogiou o documento publicado pela companhia chinesa em sua conta no X/Twitter. Segundo ele, os tokens de texto podem ser “desperdiçadores e simplesmente terríveis na entrada” e as imagens podem, em última análise, ser melhores para os LLMs.

À revista MIT Technology Review, a professora assistente de ciência da computação na Northwestern University, Manling Li, disse que, embora a ideia de usar tokens baseados em imagem não seja uma completa novidade, “este é o primeiro estudo que vi que a leva tão longe e mostra que pode realmente funcionar”.

A pesquisa da DeepSeek também aponta outra vantagem: a geração de dados de treinamento, um recurso que está se tornando escasso. O sistema de OCR da empresa, usando esse método, consegue gerar mais de 200 mil páginas de dados de treinamento por dia usando uma única GPU.

Modelo ainda é limitado

Apesar dos avanços, os pesquisadores apontam que este é apenas um primeiro passo. Li observa que o método da DeepSeek ainda trata a memória de forma linear — ou seja, lembrando o que foi mais recente.

Segundo ela, trabalhos futuros precisam explorar como fazer a memória da IA “desvanecer” de forma mais dinâmica, “semelhante a como podemos lembrar um momento transformador de anos atrás, mas esquecer o que comemos no almoço da semana passada”.

A DeepSeek já havia surpreendido a indústria no início deste ano ao lançar o DeepSeek-R1, que rivalizou com os principais sistemas do mercado usando muito menos recursos computacionais.

DeepSeek trabalha em “tokens visuais” para melhorar memória de IAs