Por que web scraping é vital para a democracia

Os frutos da web scraping – usando código para coletar dados e informações de sites – estão à nossa volta.

As pessoas constroem scrapers que podem localizar todos os Applebee’s do planeta ou coletar legislação e votos do Congresso ou rastrear relógios sofisticados à venda em sites de fãs. As empresas usam raspadores para gerenciar seu estoque de varejo online e monitorar os preços dos concorrentes . Muitos sites conhecidos usam scrapers para fazer coisas como rastrear preços de passagens aéreas e listas de empregos . O Google é essencialmente um gigante e rastejante raspador da web.

Raspadores também são ferramentas de cães de guarda e jornalistas, e é por isso que o The Markup entrou com um amicus brief em um caso perante a Suprema Corte dos Estados Unidos nesta semana que ameaça tornar o raspado ilegal.

O caso em si – Van Buren v. Estados Unidos – não é sobre raspagem, mas sim uma questão legal relacionada ao processo contra um policial da Geórgia, Nathan Van Buren, que foi subornado para pesquisar informações confidenciais em um banco de dados da polícia. Van Buren foi processado de acordo com a Lei de Fraude e Abuso de Computador (CFAA), que proíbe o acesso não autorizado a uma rede de computadores, como hacking de computador, onde alguém invade um sistema para roubar informações (ou, como dramatizado no clássico filme dos anos 1980 “ WarGames , ”Potencialmente iniciar a III Guerra Mundial).

Por que web scraping é vital para a democracia

No caso de Van Buren, uma vez que ele teve permissão para acessar o banco de dados para trabalhar, a questão é se o tribunal definirá amplamente suas atividades problemáticas como “exceder o acesso autorizado” para extrair dados, o que é o que tornaria isso um crime sob a CFAA. E é essa definição que pode afetar os jornalistas.

Ou, como disse o juiz Neil Gorsuch durante os argumentos orais de segunda-feira, conduza na direção de “talvez fazer de todos nós um criminoso federal”.

Jornalistas investigativos e outros vigilantes costumam usar raspadores para esclarecer questões grandes e pequenas, desde rastrear a influência de lobistas no Peru, coletando os registros digitais de visitantes de prédios do governo até monitorar e coletar anúncios políticos no Facebook. Em ambos os casos, as páginas e os dados extraídos estão disponíveis publicamente na Internet – sem necessidade de hacking – mas os sites envolvidos podem facilmente alterar as letras miúdas de seus termos de serviço para rotular a agregação dessas informações como “não autorizada”. E a Suprema Corte dos Estados Unidos, dependendo de como governar, pode decidir que violar esses termos de serviço é crime segundo o CFAA.

“Um estatuto que permite que forças poderosas como o governo ou atores corporativos ricos criminalizem unilateralmente as atividades de coleta de notícias, bloqueando esses esforços por meio dos termos de serviço de seus sites, violaria a Primeira Emenda”, escreveu The Markup em nosso relatório.

Que tipo de trabalho está em risco? Aqui está um resumo de algum jornalismo recente possibilitado por web scraping:

  • O projeto de rastreamento COVID , do The Atlantic, coleta e agrega dados de todo o país diariamente, servindo como um meio de monitorar onde os testes estão acontecendo, onde a pandemia está crescendo e as disparidades raciais em quem está contraindo e morrendo do vírus.
  • Este projeto, do Reveal, eliminou grupos extremistas do Facebook e comparou sua lista de membros com os de grupos de aplicação da lei no Facebook – e encontrou muitas sobreposições.
  • O Reveal também usou raspadores para descobrir que centenas de milhões de dólares em impostos sobre a propriedade nunca deveriam ter sido cobrados dos residentes de Detroit que perderam suas casas devido à execução hipotecária.
  • A recente investigação do Markup nos resultados de busca do Google descobriu que ele sempre favorece seus próprios produtos , deixando alguns sites dos quais o próprio gigante da web extrai informações lutando pelos visitantes e, portanto, pela receita de anúncios. O Departamento de Justiça dos Estados Unidos citou a questão em um processo antitruste contra a empresa.
  • Em Copy, Paste, Legislate , USA Today encontrou um padrão de leis pré-fabricadas, impulsionadas por grupos de interesses especiais, circulando em legislaturas em todo o país.
  • A Reuters vasculhou as redes sociais e os painéis de mensagens para encontrar um mercado clandestino para crianças adotadas cujos pais, que geralmente adotavam as crianças no exterior, decidiram que as crianças eram demais para eles. Um casal que participou da reportagem foi posteriormente condenado por sequestro como resultado da investigação .
  • O Gizmodo foi capaz de usar ferramentas semelhantes para encontrar as prováveis localizações de dezenas de milhares de câmeras de vigilância do Anel .
  • The Trace e The Verge, usando scrapers, encontraram pessoas usando um mercado online para vender armas sem licença e sem fazer verificações de antecedentes.

Este artigo foi publicado originalmente na The Markup e foi republicado sob a licença Creative Commons Atribuição-NãoComercial-SemDerivações.