Fazer com que o ChatGPT opere autonomamente dentro de um sistema operacional tem sido uma tarefa árdua. Mas uma equipe de cientistas da Microsoft Research e da Universidade de Pequim pode ter descoberto a solução.
O estudo analisou por que grandes modelos de linguagem (LLMs), como o GPT-4, falham em tarefas que exigem manipulação do sistema operacional. Sistemas de ponta, como o chatbot da OpenAI, são referência para tarefas criativas, como escrever e-mails ou poemas. Mas torná-los agentes dentro de um ambiente real é um grande desafio.
Tradicionalmente, modelos de IA são treinados por reforço em ambientes virtuais.
Desenvolvedores usam versões modificadas de jogos, como Super Mario e Minecraft, para “ensinar” conceitos aos modelos, como exploração autônoma e busca de objetivos.
Mas sistemas operacionais são uma arena totalmente diferente. Para IA agir como agente, tarefas dentro do SO exigem um desafio multimodal, necessitando trocas de informações entre componentes, programas e aplicativos.
A pesquisa envolveu diferentes LLMs, incluindo o Llama2 70B (Meta) e GPT-3.5 e GPT-4 (OpenAI). Nenhum se saiu bem. Segundo o estudo, o desafio excede as capacidades atuais da IA:
“Primeiro, o espaço de ação é vasto e dinâmico. Segundo, tarefas do mundo real exigem cooperação entre aplicativos, necessitando planos a longo prazo dos agentes LLM. Terceiro, os agentes precisam identificar soluções ótimas considerando restrições do usuário, como segurança e preferências”.
Para superar esses desafios, os pesquisadores precisavam entender por que LLMs falhavam em manipular sistemas operacionais, embora alguns modelos de IA superassem humanos em jogos como xadrez e Go.
Eles desenvolveram o AndroidArena, um ambiente de treinamento simulando o Android. Após criar tarefas e um sistema de benchmark, identificaram quatro capacidades ausentes: compreensão, raciocínio, exploração e reflexão.
Embora o objetivo fosse identificar o problema, a pesquisa descobriu um método simples para aumentar a precisão do modelo em 27%. Basicamente, os pesquisadores forneceram informações automatizadas ao modelo sobre tentativas anteriores e ações executadas. Isso abordou a falta de “reflexão” incorporando uma memória nas instruções fornecidas.
Essa linha de pesquisa pode ser importante para construir assistentes de IA melhores e, possivelmente, robôs domésticos capazes de interagir com o mundo físico de forma independente.