Uma recente análise conduzida por acadêmicos de Stanford e UC Berkeley revelou uma performance em queda no famoso bot de IA, ChatGPT. A pesquisa utilizou rigorosos critérios de avaliação, focando na competência do modelo em resolver problemas matemáticos, habilidades de codificação e tarefas que requerem raciocínio visual.
Em junho, o ChatGPT mostrou um preocupante decréscimo em sua eficiência matemática. Com apenas 2,4% de acerto na resolução de problemas relacionados a números primos, essa métrica contrasta significativamente com os 97,6% de precisão alcançados em março.
A capacidade do bot em produzir código também demonstrou declínio acentuado. A proporção de códigos que podiam ser diretamente executados caiu de 52,0% para 10,0% entre março e junho. Isso se revelou verdadeiro mesmo quando não foram utilizados quaisquer plugins de interpretação de código.
Ao utilizar o Abstract Reasoning Corpus (ARC) para avaliar a capacidade de raciocínio do modelo, os pesquisadores notaram um declínio, embora mais suave. O estudo revelou que o GPT-4, em junho, falhou em questões que tinha respondido corretamente em março.
Os pesquisadores atribuíram esse aparente downgrade à série de otimizações implementadas pela OpenAI, a criadora do ChatGPT. Segundo o estudo, essas alterações visavam prevenir respostas perigosas por parte do bot, mas podem ter prejudicado inadvertidamente sua funcionalidade em outros aspectos.
A pesquisa concluiu que o modelo agora tem maior tendência a fornecer respostas mais indiretas e detalhadas, em detrimento da clareza.