Buscadores com IA priorizam sites menos populares, diz estudo

Tecnologia
Resumo
  • Uma pesquisa na Alemanha mostra que buscas com IA generativa usam fontes menos populares que buscadores tradicionais.

  • Ferramentas como AI Overviews e o GPT-4o citaram sites fora do top 1.000 do ranking Tranco, rastreador que classifica sites por tráfego e popularidade.

  • Os pesquisadores afirmam que a amplitude das informações é similar, mas a IA tende a condensar contextos.

Um estudo constatou que buscadores com IA generativa recorrem com mais frequência a sites pouco populares ou fora dos padrões tradicionais. A pesquisa foi realizada pela Universidade Ruhr de Bochum, na Alemanha, e o Instituto Max Planck de Sistemas de Software.

O levantamento analisa como ferramentas de busca baseadas em inteligência artificial generativa selecionam suas fontes de informação. O resultado difere dos mecanismos de busca tradicionais, que priorizam listas de links baseadas em relevância e autoridade.

Enquanto sistemas convencionais operam indexando e classificando páginas, retornando listas ordenadas, o estudo mostrou que as IAs das buscas compactam informações de múltiplas fontes para criar respostas resumidas.

Metodologia da comparação

Para realizar a análise, a equipe extraiu milhares de consultas de um conjunto de dados públicos. As consultas incluíam perguntas baseadas em interações do ChatGPT, tópicos sociais e políticos do site de monitoramento AllSides, os 100 itens mais pesquisados na Amazon e tópicos em alta no Google Trends.

Cada consulta foi submetida simultaneamente à pesquisa tradicional do Google e a vários sistemas baseados em IA: as AI Overviews do Google, o Gemini 2.5 Flash e duas variantes do GPT-4o da OpenAI (seu modo de busca na web integrado e a Ferramenta de Busca GPT-4o).

Os pesquisadores então compararam os domínios citados nas respostas geradas pela IA com os domínios que aparecem nos primeiros 10 e 100 links orgânicos da página de resultados padrão do Google. Para medir a popularidade dos domínios, foi utilizado o Tranco, um rastreador independente que classifica sites por tráfego e popularidade. Os resultados comprovaram diferenças significativas.

No caso das AI Overviews, mais da metade das fontes citadas não apareceu nos 10 principais resultados orgânicos do Google para a mesma consulta. Além disso, 40% das fontes estavam ausentes até mesmo dos 100 principais links tradicionais.

O Gemini apresentou um padrão semelhante, citando frequentemente domínios classificados fora dos 1.000 principais do ranking Tranco. O GPT-4o e sua versão web também se basearam em fontes menos proeminentes.

Qualidade da informação é pior nas IAs?

O estudo não vai por esse caminho. Utilizando a LLOOM, ferramenta de avaliação independente desenvolvida pela Universidade Stanford, a equipe descobriu que, embora as fontes sejam diferentes, a amplitude geral das informações resumidas pela IA é semelhante àquela encontrada nos resultados tradicionais.

No entanto, os pesquisadores observaram que a busca padrão tende a fornecer uma cobertura contextual mais ampla. Em contrapartida, as respostas da IA frequentemente consolidavam esses casos em interpretações únicas, omitindo alguns resultados alternativos. Ou seja, as IAs tendem a condensar contextos.

A pesquisa também observou que os sistemas se beneficiam do conhecimento pré-treinado. O GPT-4o, por exemplo, por vezes oferecia resumos abrangentes sem citar dados externos, baseando-se apenas em sua base de conhecimento interna. Esse comportamento foi eficaz para tópicos bem estabelecidos, mas menos confiável para eventos recentes ou notícias de última hora.

Buscadores com IA priorizam sites menos populares, diz estudo