Olhar Digital > Pro > Briga judicial: Reddit acusa scrapers de vender dados para treinar IA
Reddit processa startups de IA por usar dados de usuários sem licença, buscando indenização e bloqueio da coleta para treinar chatbots
Tudo sobre Inteligência Artificial
A briga pelo uso indevido de conteúdo pelos modelos de IA dá mais um passo para tentar impedir o uso indevido de informações pelas empresas.
O Reddit está processando a Perplexity e outras três startups de IA por extrair seus dados de resultados de busca e utilizá-los para treinar seus modelos sem licença, relata o The New York Times.

Coleta de dados é feita diretamente em mecanismos de busca
O Reddit fechou recentemente acordos com Google e OpenAI para licenciar oficialmente o conteúdo de suas postagens, garantindo que esses dados possam ser usados no treinamento de sistemas de inteligência artificial. A plataforma também desenvolveu sua própria ferramenta de IA para aproveitar de forma legal e organizada o material criado por seus usuários.
No entanto, robôs de empresas terceiras têm coletado dados públicos diretamente em resultados de busca, sem pagar pelo licenciamento ou autorização prévia.
Diante disso, o Reddit entrou com uma ação judicial buscando indenização por danos financeiros e solicitou ao tribunal uma liminar para impedir que essas empresas continuem coletando e vendendo esse material sem autorização.
As empresas de IA estão em uma corrida por conteúdo humano de qualidade, e essa pressão alimentou uma economia de ‘lavagem de dados’ em escala industrial.
Ben Lee, diretor jurídico do Reddit, em trecho do processo.

Como surgiu mais esse conflito entre dados e IA
- O scraping (coleta) de informações na internet não é novidade. Desde os primeiros dias da web, empresas utilizavam robôs para coletar dados e ajudar sites a melhorar sua visibilidade em mecanismos de busca, como o Google. O que antes era visto como uma relação “simbiótica”, onde publishers e scrapers se beneficiavam mutuamente, agora é considerado por muitos como parasitário, lembra a matéria.
- A explosão de ferramentas de IA e chatbots fez a demanda por dados crescer exponencialmente. Empresas começaram a coletar enormes volumes de informações sem pagar pelas fontes originais, como sites de notícias, fóruns e redes sociais.
- Em resposta, plataformas como o Reddit passaram a restringir o acesso aos seus dados e a fechar acordos de licenciamento com empresas de tecnologia, que utilizam essas informações para treinar seus modelos de IA.
- Empresas como SerpApi, Oxylabs e AWMProxy, desconhecidas do grande público, coletam essas informações diretamente nos resultados de busca e as revendem, prejudicando o Reddit.
- Já a Perplexity, segundo o Engadget, copiava e reproduzia material cujo licenciamento não havia pago. O Reddit chegou a enviar uma ordem de cessação e desistência à empresa para que ela parasse de coletar dados de posts sem licença. A Perplexity negou que fazia isso, mas continuou a citar a plataforma em suas respostas.

Em jogo, conteúdo gerado por mais de 400 milhões de usuários
O Reddit conta com mais de 426 milhões de usuários por semana. Essa multidão discute desde games e viagens até produtos de beleza e hobbies diversos. Por isso, esses dados são valiosos para treinar sistemas de linguagem natural capazes de entender contextos e gerar respostas mais precisas em chatbots e mecanismos de busca.
Leia mais:
- Google na mira: editora dos EUA diz que IA prejudica negócios
- Atores indianos processam o Google por vídeos de IA; entenda
- Especialistas vão orientar OpenAI sobre bem-estar e uso de IA
Além de acionar judicialmente os scrapers, o Reddit afirma ter investido dezenas de milhões de dólares em sistemas anti-scraping ao longo dos anos.
Incapazes de coletar dados diretamente no Reddit, os scrapers mascaram suas identidades, ocultam suas localizações e disfarçam seus bots para roubar conteúdo da pesquisa do Google. A Perplexity é cliente voluntária de pelo menos um desses scrapers.
As empresas de IA estão em uma corrida por conteúdo humano de qualidade, e essa pressão alimentou uma economia de ‘lavagem de dados’ em escala industrial.
Ben Lee, diretor jurídico do Reddit, em trecho do processo.
Valdir Antonelli é jornalista com especialização em marketing digital e consumo.