O ChatGPT está piorando? Veja o que dizem usuários e pesquisadores

Um novo estudo descreve como alguns recursos do ChatGPT se degradaram. Com diversas mudanças a pergunta que não quer calar é: O ChatGPT está pior?

24/07/20234 minutos
Salvar
mudancas-no-chatgpt
Embora as mudanças no ChatGPT, estejam acontecendo, entender especificamente "como" e "por que" tem sido um grande desafio. Os usuários do ChatGPT Plus, que é movido pelo modelo de linguagem GPT-4, relataram uma degradação notável em seu desempenho ao longo do tempo, com respostas imprecisas e uma recusa em cumprir as instruções que antes eram seguidas de bom grado. De acordo com recentes pesquisas, estas observações de usuários têm algum fundamento, mas talvez não da maneira que esperavam. Um estudo recente de acadêmicos da Universidade de Stanford e da UC Berkeley revelou que tanto o GPT-4 quanto o GPT-3.5 estão se comportando de forma diferente comparado com alguns meses atrás, nem sempre para melhor. Eles descobriram que o GPT-4 estava dando respostas muito menos precisas para algumas questões matemáticas complexas. Anteriormente, o sistema podia responder corretamente quase todas as perguntas sobre números primos em grande escala, mas, mais recentemente, ele acertava o mesmo estímulo apenas 2,4% das vezes. Assim também, a versão mais antiga do GPT 3.5, mostrou-se mais capaz de responder a problemas matemáticos básicos. Isso levanta questões sobre as mudanças no ChatGPT, se está realmente deteriorando com o tempo ou se os usuários estão se tornando mais conscientes das limitações do sistema. Alguns usuários relataram que a ferramenta ignorava rotineiramente as instruções para reestruturar um trecho de texto, escrevendo uma ficção pura, enquanto outros observaram que o sistema falhava em tarefas de resolução de problemas relativamente simples, sejam matemáticas ou de codificação.

A competência do ChatGPT está diminuindo?

A versão mais recente do GPT-4 parece menos capaz de responder precisamente a questões de raciocínio espacial. Os pesquisadores também descobriram que a habilidade de codificação do GPT-4 piorou, a versão mais recente produzia apenas 10% de código funcional, comparada a 50% na versão de março.  Os pesquisadores Matei Zaharia e James Zou apontaram que as respostas mais recentes incluíam mais texto base e o código precisava de mais edições do que as versões anteriores. A OpenAI elogiou a capacidade de raciocínio do LLM (large language model) em testes de múltipla escolha, embora o programa tenha pontuado apenas 67% no teste de codificação HumanEval Python. Apesar disso, os usuários estão cada vez mais conscientes das limitações do modelo, como afirmou Peter Welinder, vice-presidente de produto da OpenAI, ao rebater as acusações de que o GPT-4 foi deliberadamente "atrasado". Ele insistiu que mais pessoas usando o ChatGPT estavam simplesmente aceitando as limitações do modelo.

A OpenAI está favorecendo o GPT-3.5 sobre o GPT-4?

A especulação recente de que a OpenAI está favorecendo o modelo GPT-3.5 menor e mais barato de operar em detrimento do GPT-4 mais complexo foi refutada pelos pesquisadores, que não encontraram evidências diretas de tal ação. Ainda assim, eles consideram que até pequenas mudanças no modelo, enfatizando respostas mais personalizadas, poderiam ter grandes impactos em como a IA responde. Eles estão planejando um estudo mais amplo para examinar as mudanças ocorrendo também em outros modelos de linguagem.

ChatGPT: Melhorias e Problemas Persistem

Desde o seu lançamento em março deste ano, o GPT-4 apresentou melhorias notáveis em resistir a ataques de jailbreak. Entretanto, ele ainda responderia a solicitações prejudiciais 5% do tempo, uma melhora significativa em relação aos 21% das versões anteriores. Da mesma forma, o GPT-3.5 agora responde 8% do tempo a solicitações ruins em comparação com 2% na versão de março. Em termos de responsividade do texto, os pesquisadores descobriram que o GPT-4 tem menos probabilidade de responder com uma longa declaração antidiscriminação em comparação com as versões de março do modelo de linguagem. Uma resposta mais doce e curta "não me faça essa pergunta" pode não ser necessariamente pior do que uma mais longa, mas os pesquisadores observaram que o GPT-4 fornece "menos justificativa" para suas respostas.

Transparência e Melhor Compreensão Necessárias

A OpenAI, que tem se envolvido cada vez mais na política regulatória da IA e na discussão sobre os danos da IA, pode fazer mais pelos seus usuários oferecendo um perspectiva de como a IA está sendo ajustada. A necessidade de uma maior transparência e compreensão sobre os modelos e atualizações do GPT-4, bem como sobre como a empresa está mexendo com seu modelo, é um desejo comum expresso tanto por usuários quanto por pesquisadores. Enquanto isso, todos aguardam ansiosamente para ver como o ChatGPT continuará a se desenvolver e adaptar no futuro.
🚀Gostou do conteúdo? Continue lendo as principais notícias do mercado de IA. 📩Assine a nossa newsletter e fique por dentro de tudo sobre a Inteligência Artificial. Imagem: OpenAI
Salvar

Inscreva-se em nossa newsletter!

Receba semanalmente, atualizações, ferramentas, tutoriais e prompts em seu e-mail.