Agentes de inteligência artificial (IA) demonstraram um avanço notável em sua capacidade de participar e se destacar em jogos de dedução social, como os populares "Mafia" e "Among Us". Esses jogos, que exigem habilidades complexas de interrogatório, comunicação multiagente e dedução para identificar um "adversário" oculto, representam um novo e empolgante campo de testes para a IA. Recentemente, pesquisadores da Universidade de Stanford publicaram um estudo inovador que detalha como aprimorar significativamente a habilidade da IA em interrogar e deduzir informações sobre seu ambiente apenas comunicando-se com outros agentes.
Jogos de dedução social são caracterizados por informações assimétricas, onde um grupo minoritário informado (os "impostores" ou "mafiosos") tenta enganar uma maioria desinformada. A capacidade de uma inteligência artificial de navegar nessas complexas dinâmicas sociais, entendendo nuances de comunicação, blefes e estratégias de engano, é um marco significativo. O sucesso nesses jogos não depende apenas de lógica pura, mas também de uma forma de "inteligência social", tornando-os um desafio particularmente interessante para o desenvolvimento de IA mais sofisticada.
O jogo "Among Us" serve como um excelente exemplo e foi o foco do estudo da Universidade de Stanford. Trata-se de um jogo multiplayer de "papel oculto" onde os jogadores são divididos em duas equipes: os "Tripulantes" (a maioria desinformada) e os "Impostores" (a minoria informada).
O objetivo dos Tripulantes é completar tarefas na nave ou identificar e ejetar todos os Impostores. Já os Impostores buscam sabotar a nave e eliminar os Tripulantes sem revelar sua verdadeira identidade. A comunicação ocorre principalmente durante as fases de discussão, geralmente acionadas quando um corpo é reportado. Nessas discussões, os jogadores compartilham informações, acusam suspeitos e tentam deduzir quem são os Impostores. Os Impostores, por sua vez, precisam mentir convincentemente, desviar suspeitas e criar discórdia entre os Tripulantes.
O artigo científico intitulado "Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning" (Treinando Modelos de Linguagem para Dedução Social com Aprendizado por Reforço Multiagente), da Universidade de Stanford, aborda um desafio central no treinamento de IAs para esses jogos: a dependência de grandes volumes de demonstrações humanas.
Tradicionalmente, o desenvolvimento de agentes de inteligência artificial cooperativos e competitivos em ambientes multiagente, conhecido como Aprendizado por Reforço Multiagente (MARL - Multi-Agent Reinforcement Learning), muitas vezes recorre a dados de comunicação humana específica da tarefa. No entanto, a equipe de Stanford descobriu como contornar essa limitação.
A chave para o avanço reside na implementação de um "sinal de recompensa denso". Em vez de recompensar os agentes de inteligência artificial apenas ao final do jogo (com base na vitória ou derrota), o sistema os recompensa durante a fase de discussão. Essa recompensa é baseada em quão eficazmente uma mensagem gerada por um agente influencia as crenças dos outros Tripulantes sobre a identidade do Impostor, alinhando-as com a verdade fundamental do jogo (quem de fato é o Impostor).
Este método considera tanto a capacidade de "falar" (gerar mensagens úteis) quanto de "ouvir" (interpretar corretamente as mensagens de outros agentes). Os pesquisadores descobriram que essa abordagem não apenas funciona bem, mas também permite que os agentes de inteligência artificial melhorem suas habilidades de discussão através do "auto-jogo" (self-play), onde os agentes jogam repetidamente entre si, aprendendo e refinando suas estratégias sem a necessidade de exemplos humanos. Notavelmente, essa técnica resultou em taxas de sucesso duas vezes maiores em relação ao aprendizado por reforço padrão e mais de três vezes maiores em relação a modelos base que eram quatro vezes maiores.
Um aspecto fascinante desse desenvolvimento é como ele se relaciona com a "Teoria da Mente" (ToM), que é a capacidade de atribuir estados mentais — crenças, intenções, desejos, emoções, conhecimento, etc. — a si mesmo e aos outros, e entender que os outros têm crenças, desejos, intenções e perspectivas que são diferentes das próprias. Os humanos utilizam a Teoria da Mente naturalmente ao se comunicar para inferir o que os outros sabem e ajustar suas respostas. O estudo de Stanford demonstrou que sua técnica resulta em comportamentos emergentes nos agentes de inteligência artificial que são comumente encontrados em jogos reais de "Among Us" entre humanos, como acusar diretamente outros jogadores e fornecer evidências para apoiar suas alegações. Isso sugere que os agentes estão desenvolvendo uma forma rudimentar de entender as "intenções" dos outros jogadores.
A capacidade de treinar agentes de inteligência artificial para se comunicarem e deduzirem informações eficazmente em cenários de dedução social sem depender de grandes conjuntos de dados de demonstração humana tem implicações vastas. Embora o estudo se concentre em "Among Us", as técnicas desenvolvidas podem ser aplicadas a uma ampla gama de outros jogos de dedução social e, potencialmente, a cenários do mundo real que exigem coordenação, comunicação e compreensão de informações parciais ou enganosas.
Este avanço é particularmente significativo porque, tradicionalmente, o sinal de recompensa em tais jogos (ganhar ou perder) é muito esparso para treinar efetivamente modelos de aprendizado por reforço. Ao criar sinais de recompensa mais densos e significativos durante as interações comunicativas, os pesquisadores da Universidade de Stanford abriram novas portas para o desenvolvimento de IAs mais robustas e socialmente inteligentes. A pesquisa indica que, mesmo com modelos base relativamente fracos, os agentes podem aprender a falar efetivamente e extrair informações de mensagens de discussão, sendo robustos até mesmo contra impostores treinados para sabotar a discussão.
O trabalho destaca a importância de desenvolver sinais de recompensa inovadores para treinar a inteligência artificial em tarefas complexas. A capacidade de uma IA de identificar mentiras e interrogar efetivamente tem aplicações que vão muito além do entretenimento, tocando áreas como segurança, negociações e qualquer domínio que envolva interações sociais estratégicas.
Em resumo, o estudo da Universidade de Stanford não apenas melhora o desempenho da IA em jogos como "Among Us", mas também fornece insights valiosos sobre como podemos construir sistemas de inteligência artificial que compreendam e naveguem melhor nas complexidades da interação e comunicação social, utilizando o aprendizado por reforço de maneiras inovadoras e sem a necessidade de extensos dados humanos.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.