OpenAI Lança GPTBot para Rastreamento da Web

Lançamento do GPTBot pela OpenAI para a raspagem da web desencadeia debates sobre implicações legais e éticas da coleta de dados.

22/08/20234 minutos

Salvar

A OpenAI surpreendeu ao introduzir, de forma discreta, o GPTBot, um novo bot de rastreamento de sites. Seu propósito é "raspar" o conteúdo da web para treinar seus modelos de linguagem de grande porte (LLMs). No entanto, a revelação desse bot gerou um turbilhão de reações e dúvidas sobre seus efeitos e implicações.

Enfrentando o GPTBot: Estratégias de Defesa dos Websites

“Recolhemos periodicamente dados públicos da Internet que podem ser usados para melhorar as capacidades, a precisão e a segurança de modelos futuros”, disse um porta-voz da OpenAI. “Em nosso site, fornecemos instruções sobre como impedir que nosso bot de coleta acesse um site. As páginas da Web são filtradas para remover fontes que possuem acesso pago, são conhecidas por coletar informações de identificação pessoal (PII) ou ter texto que viole nossas políticas.” O lançamento do GPTBot veio acompanhada de uma opção para os proprietários de sites impedirem o bot de fazer a raspagem de seus conteúdos. Bastaria uma pequena alteração no arquivo robots.txt de um site para evitar o compartilhamento de dados com a OpenAI. No entanto, diante da extensa prática de raspagem da web, surge o questionamento sobre a eficácia desse bloqueio para evitar a inclusão do conteúdo nos dados de treinamento dos LLMs.

Defesa contra GPTBot e Parcerias da OpenAI

Ainda assim, o GPTBot desencadeou uma onda de ações preventivas por parte de proprietários de sites. Diversos sites como The Verge rapidamente adotaram a marcação robots.txt para impedir que o modelo da OpenAI capture e utilize seu conteúdo. Além disso, Neil Clarke, editor da revista de ficção científica Clarkesworld, anunciou publicamente sua decisão de bloquear o GPTBot.

O New York Times também está deixando claro que a indústria de IA não terá liberdade para usar seu conteúdo para treinar algoritmos. Em uma mudança recente em sua política de Termos de Serviço, o Times proibiu explicitamente o uso de seus vastos arquivos de mídia para fins de treinamento “qualquer programa de software, incluindo, mas não limitado a, treinamento de aprendizado de máquina ou inteligência artificial (IA) sistema."

Enquanto isso, em um movimento que chamou atenção, a OpenAI não apenas lançou o GPTBot, mas também anunciou uma doação de $395.000 e uma parceria com o Instituto de Ética e Jornalismo Arthur L. Carter da Universidade de Nova York. Sob a liderança de Stephen Adler, ex-editor-chefe da Reuters, a Iniciativa de Ética e Jornalismo da NYU busca explorar maneiras éticas de incorporar a IA ao setor de notícias.

Considerações Finais e Debates Contínuos

À medida que a introdução do GPTBot pela OpenAI gera ondas na comunidade online, discussões acaloradas surgem entre defensores e críticos. À luz disso, ainda que seja uma vantagem poder exercer algum controle sobre o uso de conteúdo na web, permanece incerto o quão efetivo será simplesmente bloquear o GPTBot para impedir que os LLMs assimilem conteúdo não bloqueado. Afinal, os LLMs já absorveram amplamente conjuntos de dados públicos para treinamento. Além disso, o cenário legal da raspagem de dados se torna mais complexo. No ano anterior, o Nono Circuito de Apelações dos EUA reiterou a legalidade da coleta de dados publicamente acessíveis. No entanto, desafios legais continuam a surgir em torno das práticas de coleta de dados para treinamento de IA. Em julho, a OpenAI foi atingida por dois processos. Um, movido no tribunal federal de São Francisco, alega que a OpenAI copiou ilegalmente um texto de livro ao não obter o consentimento dos detentores dos direitos autorais ou oferecer-lhes crédito e compensação. A outra alega que o ChatGPT e o DALL-E coletam dados pessoais das pessoas na Internet, violando as leis de privacidade. Portanto, enquanto o debate prossegue, proprietários de sites e a comunidade em geral se esforçam para encontrar um equilíbrio entre inovação e ética no campo da IA.

🚀Gostou do conteúdo? Continue lendo as principais notícias do mercado de IA. 📩Assine a nossa newsletter e fique por dentro de tudo sobre a Inteligência Artificial. Foto: GreatLearning