Por que web scraping é vital para a democracia
Os frutos da web scraping – usando código para coletar dados e informações de sites – estão à nossa volta.
As pessoas constroem scrapers que podem localizar todos os Applebee’s do planeta ou coletar legislação e votos do Congresso ou rastrear relógios sofisticados à venda em sites de fãs. As empresas usam raspadores para gerenciar seu estoque de varejo online e monitorar os preços dos concorrentes . Muitos sites conhecidos usam scrapers para fazer coisas como rastrear preços de passagens aéreas e listas de empregos . O Google é essencialmente um gigante e rastejante raspador da web.
Raspadores também são ferramentas de cães de guarda e jornalistas, e é por isso que o The Markup entrou com um amicus brief em um caso perante a Suprema Corte dos Estados Unidos nesta semana que ameaça tornar o raspado ilegal.
O caso em si – Van Buren v. Estados Unidos – não é sobre raspagem, mas sim uma questão legal relacionada ao processo contra um policial da Geórgia, Nathan Van Buren, que foi subornado para pesquisar informações confidenciais em um banco de dados da polícia. Van Buren foi processado de acordo com a Lei de Fraude e Abuso de Computador (CFAA), que proíbe o acesso não autorizado a uma rede de computadores, como hacking de computador, onde alguém invade um sistema para roubar informações (ou, como dramatizado no clássico filme dos anos 1980 “ WarGames , ”Potencialmente iniciar a III Guerra Mundial).
No caso de Van Buren, uma vez que ele teve permissão para acessar o banco de dados para trabalhar, a questão é se o tribunal definirá amplamente suas atividades problemáticas como “exceder o acesso autorizado” para extrair dados, o que é o que tornaria isso um crime sob a CFAA. E é essa definição que pode afetar os jornalistas.
Ou, como disse o juiz Neil Gorsuch durante os argumentos orais de segunda-feira, conduza na direção de “talvez fazer de todos nós um criminoso federal”.
Jornalistas investigativos e outros vigilantes costumam usar raspadores para esclarecer questões grandes e pequenas, desde rastrear a influência de lobistas no Peru, coletando os registros digitais de visitantes de prédios do governo até monitorar e coletar anúncios políticos no Facebook. Em ambos os casos, as páginas e os dados extraídos estão disponíveis publicamente na Internet – sem necessidade de hacking – mas os sites envolvidos podem facilmente alterar as letras miúdas de seus termos de serviço para rotular a agregação dessas informações como “não autorizada”. E a Suprema Corte dos Estados Unidos, dependendo de como governar, pode decidir que violar esses termos de serviço é crime segundo o CFAA.
“Um estatuto que permite que forças poderosas como o governo ou atores corporativos ricos criminalizem unilateralmente as atividades de coleta de notícias, bloqueando esses esforços por meio dos termos de serviço de seus sites, violaria a Primeira Emenda”, escreveu The Markup em nosso relatório.
Que tipo de trabalho está em risco? Aqui está um resumo de algum jornalismo recente possibilitado por web scraping:
Este artigo foi publicado originalmente na The Markup e foi republicado sob a licença Creative Commons Atribuição-NãoComercial-SemDerivações.
Um FIC FIA é um jeito eficiente de entrar no mercado de ações. Ele traz…
A teoria da Curva de Laffer mostra como impostos influenciam o dinheiro que o governo…
O livro ensina como casais podem ficar ricos juntos. Mostra a importância de unir forças…
Investir em ações pode ser um bom caminho para crescer seu dinheiro. Antes de começar,…
O Investidor10 é seu guia definitivo para investimentos mais espertos. Neste texto, você vai conhecer…
Quer comprar um iPhone sem gastar muito? Temos cinco dicas incríveis para você. Com elas,…