Os dados utilizados por IAs estão desaparecendo: Entenda o motivo

Pesquisa recente revela novas imposições para o restringimento de informações, levantando preocupações sobre o futuro da inteligência artificial.

26/07/20243 minutos
Salvar
os-dados-utilizados-por-ias-estao-desaparecendo-entenda-o-motivo

Os dados que alimentam a inteligência artificial estão desaparecendo em um ritmo alarmante, de acordo com uma pesquisa recente da Data Provenance Initiative, revelando que muitas das principais fontes de conteúdo na web, utilizadas para construir modelos de IA, estão restringindo o acesso aos seus dados.



Mudança de cenário



Durante anos, desenvolvedores de sistemas de inteligência artificial se apoiaram em grandes volumes de texto, imagens e vídeos coletados da internet para treinar seus modelos. Entretanto, essa abundância está diminuindo. Segundo o estudo da Data Provenance Initiative, liderado pelo MIT, 14.000 domínios da web analisados em três conjuntos de dados de treinamento de IA frequentemente utilizados apresentaram uma "crise emergente de consentimento". Isso ocorre à medida que editores e plataformas online adotam medidas para evitar que seus conteúdos sejam coletados.



Historicamente, os desenvolvedores podiam coletar dados com relativa facilidade. Porém, o recente boom da IA generativa gerou tensões com os detentores dessas informações, muitos dos quais agora exigem compensação ou restringem o uso. Com isso, alguns editores começaram a criar paywalls ou alterar seus termos de serviço para limitar o uso de seus dados para treinamento de IA, enquanto outros bloquearam rastreadores de web automatizados usados por empresas como OpenAI, Anthropic e Google.



Os pesquisadores estimam que 5% de todos os dados e 25% dos dados de alta qualidade nesses conjuntos — conhecidos como C4, RefinedWeb e Dolma — foram restringidos. Esses bloqueios são definidos pelo Robots Exclusion Protocol, um método que permite aos proprietários de sites impedir que bots rastreiem suas páginas através do arquivo robots.txt.



Estratégias



Recentemente, algumas companhias de IA fecharam acordos com editores para garantir acesso contínuo ao seu conteúdo. Todavia, as restrições generalizadas representam um desafio significativo, especialmente para pequenas empresas e pesquisadores acadêmicos que dependem de conjuntos de informações públicas. Além disso, outras empresas estão explorando o uso de dados sintéticos, gerados por sistemas de IA, para treinar seus modelos. No entanto, muitos pesquisadores duvidam essa solução possam substituir os dados criados por humanos com a mesma qualidade.



Preocupações



Logo, começam a existir preocupações de que, eventualmente, todos os dados de treinamento disponíveis na internet pública se esgotem, restando apenas os bloqueados por paywalls ou restritos por robots.txt. Isso destaca a necessidade de novas ferramentas que permitam aos proprietários de sites controlar com mais precisão o uso de seus dados. Ademais, sugere que as grandes empresas de IA devem reconsiderar sua abordagem de coleta, oferecendo mais valor em troca aos detentores desses conteúdos.


Fonte: The New York Times



------------------------------------------------------------------------------------------------------------------------------



🚀 Gostou do conteúdo? Então continue lendo as principais notícias do mercado de IA.


📩 Assine a nossa newsletter e fique por dentro de tudo sobre a Inteligência Artificial.


Foto: The New York Times (reprodução)

Salvar

Inscreva-se em nossa newsletter!

Receba semanalmente, atualizações, ferramentas, tutoriais e prompts em seu e-mail.