A busca pela superinteligência artificial tem sido uma jornada marcada por avanços exponenciais. Recentemente, declarações de Demis Hassabis, cofundador da Google DeepMind, e análises de especialistas como Wes Roth, reacenderam o debate sobre o potencial de uma "explosão de inteligência" impulsionada por sistemas de IA capazes de autoaperfeiçoamento. Este artigo explora as ideias apresentadas, com foco no aprendizado por reforço, no legado do AlphaZero e nas implicações futuras para a Inteligência Artificial (IA).
Em uma discussão sobre o futuro da IA, Demis Hassabis, uma figura proeminente no campo da Inteligência Artificial, compartilhou sua visão sobre a combinação de diferentes técnicas para impulsionar a capacidade da IA. Ele destacou que não busca uma explosão de inteligência descontrolada, mas sim um avanço significativo e gerenciado.
Hassabis explicou que a DeepMind está explorando a combinação de modelos de fundação (foundation models) com outras abordagens, como técnicas de programação evolutiva. "É interessante agora começar a parear outros tipos de técnicas, neste caso, técnicas de programação evolutiva, com os modelos de fundação mais recentes, que estão se tornando cada vez mais poderosos", afirmou. Essa sinergia, segundo ele, pode levar a sistemas combinatórios mais robustos e capazes.
Um dos conceitos-chave mencionados por Hassabis é o "loop de autoaperfeiçoamento". Ele se refere à capacidade de um sistema de IA aprender e melhorar continuamente a partir de suas próprias experiências, sem intervenção humana constante. "Isso é uma das coisas, um autoaperfeiçoamento, alguém descobrindo um tipo de loop de autoaperfeiçoamento, seria uma maneira pela qual as coisas podem acelerar ainda mais do que já estão indo hoje", ponderou Hassabis. Esse processo foi fundamental para o sucesso de sistemas como o AlphaZero.
O AlphaZero, desenvolvido pela DeepMind, é um exemplo emblemático do poder do aprendizado por reforço e do autoaperfeiçoamento. Diferentemente de seu predecessor, o AlphaGo, que foi treinado inicialmente com dados de jogos humanos, o AlphaZero aprendeu a jogar xadrez, shogi e Go do zero, apenas jogando contra si mesmo.
Como destacado por Wes Roth em sua análise, a curva de aprendizado do AlphaZero foi espantosa:
Esse feito demonstrou que, em domínios bem definidos como jogos, a IA pode atingir níveis sobre-humanos de performance em um tempo incrivelmente curto, aprendendo estratégias e conhecimentos que não estavam presentes nos dados de treinamento humanos. Hassabis ressalta que, embora esses sejam domínios limitados, o potencial de aplicar princípios semelhantes a problemas do mundo real, mais complexos e menos definidos, é imenso.
O sucesso do AlphaZero é intrinsecamente ligado ao Aprendizado por Reforço (RL) e à técnica de auto-play (self-play). No RL, um agente aprende tomando ações em um ambiente para maximizar alguma noção de recompensa cumulativa. No caso do AlphaZero, o sistema jogava milhões de partidas contra si mesmo, ajustando suas redes neurais com base nos resultados dessas partidas, aprendendo assim a identificar movimentos vencedores e estratégias superiores.
A discussão sobre a evolução da IA agora se volta para a convergência dessas técnicas de aprendizado por reforço com os Modelos de Linguagem Grandes (LLMs), como os da OpenAI. Wes Roth menciona que, em um evento da Sequoia Capital AI Summit, um representante da OpenAI destacou que a próxima grande onda de avanços pode vir do aumento massivo da computação dedicada ao aprendizado por reforço (RL Compute), em comparação com a computação de pré-treinamento (Pretraining Compute) dos LLMs.
A ideia é que, se os LLMs, que já possuem uma vasta capacidade de compreensão e geração de linguagem, puderem ser aprimorados através de loops de autoaperfeiçoamento semelhantes aos do AlphaZero, seu potencial pode ser drasticamente ampliado. Um exemplo citado é o artigo "Absolute Reasoner", onde pesquisadores, incluindo alguns da China, demonstraram que treinar modelos de IA em tarefas de codificação usando auto-play não apenas melhora suas habilidades de programação, mas também suas capacidades de resolução de problemas matemáticos. Isso sugere uma generalização da capacidade de raciocínio, um passo crucial em direção a uma Inteligência Artificial mais geral.
Essa convergência não está isenta de desafios. Aplicar o auto-play a domínios do mundo real é significativamente mais complexo do que em jogos. Avaliar o sucesso e fornecer um sinal de recompensa claro para um LLM que tenta resolver problemas complexos de engenharia ou ciência é uma tarefa árdua. No entanto, o potencial é vasto. Se a IA puder gerar hipóteses, testá-las em simulações (ou mesmo no mundo real, com supervisão) e aprender com os resultados, o ritmo da descoberta científica e da inovação tecnológica pode ser acelerado de forma sem precedentes.
A capacidade de um sistema de IA de se autoaperfeiçoar em tarefas como codificação ou raciocínio matemático pode levar a um ciclo virtuoso: IA melhorada cria ferramentas melhores para desenvolver IA ainda mais avançada. Esse é o cerne da "explosão de inteligência" que preocupa e excita os pesquisadores.
A evolução da Inteligência Artificial, impulsionada pelo aprendizado por reforço, autoaperfeiçoamento e a combinação com modelos de fundação, aponta para um futuro onde a IA pode não apenas executar tarefas complexas, mas também descobrir novo conhecimento e criar soluções inovadoras de forma autônoma.
Enquanto Demis Hassabis e outros líderes da área buscam garantir que esse desenvolvimento seja controlado e benéfico, a velocidade com que sistemas como o AlphaZero dominaram seus respectivos domínios serve como um lembrete do potencial transformador – e disruptivo – da Inteligência Artificial. A capacidade de generalizar o aprendizado e o raciocínio para além de tarefas específicas continua sendo um dos maiores objetivos e desafios, mas os avanços recentes sugerem que estamos cada vez mais próximos de alcançá-lo.
A comunidade científica e a sociedade como um todo precisam estar preparadas para as implicações dessa trajetória, fomentando a pesquisa responsável e o debate ético sobre o futuro da Inteligência Artificial e seu papel em nosso mundo.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.