Apple, Nvidia e outras gigantes são acusadas de usar o YouTube sem permissão para treinar suas IAs

A denúncia acerca da utilização de dados protegidos parece implicar em novos debates legais e éticos no universo da inteligência artificial.

17/07/20242 minutos
Salvar
apple-nvidia-e-outras-gigantes-sao-acusadas-de-usar-o-youtube-sem-permissao-para-treinar-suas-ias

Para treinar modelos de inteligência artificial, é essencial contar com uma vasta quantidade de dados. No entanto, a escassez desse material levou algumas gigantes da tecnologia a recorrer a uma base com informações extraídas de milhares de vídeos do YouTube, coletadas sem permissão. Entre essas empresas estão Anthropic, Apple, Nvidia e Salesforce, conforme revelado por uma investigação da Proof News.



Coleta indevida



Os dados foram coletados por uma organização sem fins lucrativos chamada EleutherAI, que alega contribuir para treinamentos de modelos de IA. Inicialmente, a plataforma foi criada para atender a pequenos desenvolvedores ou projetos acadêmicos. No entanto, grandes empresas também utilizaram seus recursos, desencadeando problemas éticos e legais.



A base de dados utilizada, conhecida como Pile, possui mais de 800 GB de tamanho e inclui informações de fontes como Wikipedia, Parlamento Europeu e YouTube, em que a coleta não envolvia os vídeos propriamente ditos, mas sim as respectivas legendas. Segundo apurações, a compilação inclui transcrições de 173.536 vídeos de mais de 48.000 canais, incluindo youtubers famosos como Marques Brownlee, MrBeast e PewDiePie, além de canais de instituições como Khan Academy, MIT e Harvard.



Reações



A EleutherAI ainda não comentou sobre o ocorrido, e Apple e Nvidia também não responderam aos pedidos de pronunciamento. A Anthropic confirmou o uso de um "subconjunto muito pequeno de legendas do YouTube", mas argumentou que possíveis queixas de violação de direitos autorais devem ser dirigidas aos responsáveis pelo Pile. Já a Salesforce afirmou que utilizou os dados para "fins acadêmicos e de pesquisa" porque eles estavam disponíveis publicamente.



Ademais, a situação não agradou aos youtubers afetados. Marques Brownlee, por exemplo, expressou resignação e prevê que problemas semelhantes continuarão ocorrendo, já que nenhum dos youtubers foi consultado para autorizar a coleta de dados.



Importância



Empresas gigantes como essas utilizaram os dados do Pile porque grande parte deles está disponível livremente. Embora não pareça ter havido má-fé, a situação destaca a importância de verificar a procedência dos dados utilizados para evitar implicações legais.


Fonte: Proof News



------------------------------------------------------------------------------------------------------------------------------



🚀 Gostou do conteúdo? Então continue lendo as principais notícias do mercado de IA.


📩 Assine a nossa newsletter e fique por dentro de tudo sobre a Inteligência Artificial.


Foto: Pichau Arena (reprodução)

Salvar

Inscreva-se em nossa newsletter!

Receba semanalmente, atualizações, ferramentas, tutoriais e prompts em seu e-mail.