Olhar Digital > Pro > Briga judicial: Reddit acusa scrapers de vender dados para treinar IA

Reddit processa startups de IA por usar dados de usuários sem licença, buscando indenização e bloqueio da coleta para treinar chatbots

Reddit é peça-chave para IA e pressiona Google por condições melhores em novo contrato (Imagem: Mehaniq / Shutterstock)

Inteligência artificial

Tudo sobre Inteligência Artificial

A briga pelo uso indevido de conteúdo pelos modelos de IA dá mais um passo para tentar impedir o uso indevido de informações pelas empresas.

O Reddit está processando a Perplexity e outras três startups de IA por extrair seus dados de resultados de busca e utilizá-los para treinar seus modelos sem licença, relata o The New York Times.

Celular com logotipo da Perplexity na tela em cima de teclado de notebook
Perplexity e outras três empresas estão sendo processadas pelo Reddit por coletar dados da empresa em mecanismos de busca e usá-los sem autorização para treinar modelos de IA. Imagem: gguy/ Shutterstock

Coleta de dados é feita diretamente em mecanismos de busca

O Reddit fechou recentemente acordos com Google e OpenAI para licenciar oficialmente o conteúdo de suas postagens, garantindo que esses dados possam ser usados no treinamento de sistemas de inteligência artificial. A plataforma também desenvolveu sua própria ferramenta de IA para aproveitar de forma legal e organizada o material criado por seus usuários.

No entanto, robôs de empresas terceiras têm coletado dados públicos diretamente em resultados de busca, sem pagar pelo licenciamento ou autorização prévia.

Diante disso, o Reddit entrou com uma ação judicial buscando indenização por danos financeiros e solicitou ao tribunal uma liminar para impedir que essas empresas continuem coletando e vendendo esse material sem autorização.

As empresas de IA estão em uma corrida por conteúdo humano de qualidade, e essa pressão alimentou uma economia de ‘lavagem de dados’ em escala industrial.

Ben Lee, diretor jurídico do Reddit, em trecho do processo.

Com a explosão das ferramentas de IA, a demanda por dados cresceu rapidamente e empresas começaram a coletar enormes volumes de informação sem pagar por elas. Imagem: Peach/Shutterstock

Como surgiu mais esse conflito entre dados e IA

  • O scraping (coleta) de informações na internet não é novidade. Desde os primeiros dias da web, empresas utilizavam robôs para coletar dados e ajudar sites a melhorar sua visibilidade em mecanismos de busca, como o Google. O que antes era visto como uma relação “simbiótica”, onde publishers e scrapers se beneficiavam mutuamente, agora é considerado por muitos como parasitário, lembra a matéria.
  • A explosão de ferramentas de IA e chatbots fez a demanda por dados crescer exponencialmente. Empresas começaram a coletar enormes volumes de informações sem pagar pelas fontes originais, como sites de notícias, fóruns e redes sociais.
  • Em resposta, plataformas como o Reddit passaram a restringir o acesso aos seus dados e a fechar acordos de licenciamento com empresas de tecnologia, que utilizam essas informações para treinar seus modelos de IA.
  • Empresas como SerpApi, Oxylabs e AWMProxy, desconhecidas do grande público, coletam essas informações diretamente nos resultados de busca e as revendem, prejudicando o Reddit.
  • Já a Perplexity, segundo o Engadget, copiava e reproduzia material cujo licenciamento não havia pago. O Reddit chegou a enviar uma ordem de cessação e desistência à empresa para que ela parasse de coletar dados de posts sem licença. A Perplexity negou que fazia isso, mas continuou a citar a plataforma em suas respostas.
Roubo de dados
Incapazes de coletar dados diretamente no Reddit, os scrapers mascaram suas identidades, ocultam suas localizações e disfarçam seus bots para roubar conteúdo da pesquisa do Google. Jirsak/Shutterstock

Em jogo, conteúdo gerado por mais de 400 milhões de usuários

O Reddit conta com mais de 426 milhões de usuários por semana. Essa multidão discute desde games e viagens até produtos de beleza e hobbies diversos. Por isso, esses dados são valiosos para treinar sistemas de linguagem natural capazes de entender contextos e gerar respostas mais precisas em chatbots e mecanismos de busca.

Leia mais:

Além de acionar judicialmente os scrapers, o Reddit afirma ter investido dezenas de milhões de dólares em sistemas anti-scraping ao longo dos anos.

Incapazes de coletar dados diretamente no Reddit, os scrapers mascaram suas identidades, ocultam suas localizações e disfarçam seus bots para roubar conteúdo da pesquisa do Google. A Perplexity é cliente voluntária de pelo menos um desses scrapers.

As empresas de IA estão em uma corrida por conteúdo humano de qualidade, e essa pressão alimentou uma economia de ‘lavagem de dados’ em escala industrial.

Ben Lee, diretor jurídico do Reddit, em trecho do processo.

Valdir Antonelli

Colaboração para o Olhar Digital

Valdir Antonelli no LinkedIn

Valdir Antonelli é jornalista com especialização em marketing digital e consumo.

Layse Ventura

Editor(a) SEO

Layse Ventura no LinkedIn

Layse Ventura é jornalista (Uerj), mestre em Engenharia e Gestão do Conhecimento (Ufsc) e pós-graduada em BI (Conquer). Acumula quase 20 anos de experiência como repórter, copywriter e SEO.