
Portais e páginas na internet podem sair no ar por vários motivos, desde falhas técnicas a mudanças de endereço ou remoções deliberadas feitas por seus responsáveis. Para preservar esse conteúdo, serviços como o Internet Archive mantêm cópias arquivadas que permitem consultar versões antigas de sites. Isso se dá pelo Wayback Machine.
Agora, Mark Graham, diretor do Wayback Machine, tenta reverter um aumento nos bloqueios impostos ao serviço por grandes plataformas e veículos de mídia.
Em um manifesto publicado nesta terça-feira (17/02), o executivo afirmou que impedir o Internet Archive de salvar páginas da web compromete o registro público e pode causar danos históricos. O posicionamento responde a medidas adotadas nos últimos meses por publicações como o New York Times e pela plataforma Reddit.
O cerco ao arquivo digital foi motivado pelo temor de que empresas de inteligência artificial estejam utilizando a biblioteca sem fins lucrativos para facilitar a raspagem de dados e o treinamento de grandes modelos de linguagem.
Avanço de bloqueios contra o arquivo

Um levantamento publicado em janeiro pelo Nieman Lab, de Harvard, constatou que veículos de peso estão reavaliando a relação com o Internet Archive. O NYT, por exemplo, adicionou o robô do arquivo as restrições. A justificativa é que o Wayback Machine fornece acesso irrestrito e não autorizado aos conteúdos por parte de empresas de IA.
O veículo é um dos maiores críticos ao uso de material jornalístico para treinamento da tecnologia sem que haja acordos financeiros.
O laboratório menciona também o The Guardian, que filtrou os artigos da interface do Wayback Machine e excluiu o site das APIs do arquivo.
Ao todo, até a publicação da pesquisa, o Nieman Lab havia identificado 241 sites de notícias de nove países que haviam bloqueado pelo menos um robô do Internet Archive, apesar de maioria pertencer ao grupo USA Today, dono do jornal homônimo.
O que diz o executivo?

Para Graham, as preocupações das organizações de mídia são compreensíveis, mas não têm fundamento sobre o Wayback Machine. Segundo ele, a ferramenta “não tem a intenção de ser uma porta dos fundos para raspagem comercial em larga escala”, e afirma que a organização trabalha para “evitar tais abusos”.
Ele explica, também, que a plataforma é construída para leitores humanos e utiliza mecanismos de filtragem, monitoramento e limite de taxa de acesso para combater atividades abusivas de bots. Para o diretor, o bloqueio do trabalho de preservação prejudica a capacidade informacional da sociedade.
“Jornalistas perdem ferramentas de prestação de contas. Pesquisadores perdem evidências. A web se torna mais frágil e fragmentada, e a história se torna mais fácil de reescrever”
Mark Graham, em manifesto contra o bloqueio do Wayback Machine
A mobilização do Internet Archive ocorre anos após reportagens apontarem que a plataforma esteve entre milhões de sites utilizados para raspagem de dados por empresas como Google e Meta. Em maio de 2023, a organização chegou a enfrentar instabilidade após uma sobrecarga provocada por tentativas automatizadas de extração de conteúdo. Na ocasião, os administradores da biblioteca bloquearam os acessos.

