A inteligência artificial (IA) está à beira de uma transformação monumental. Pesquisadores revelaram um novo paradigma, apelidado de "Absolute Zero" (Zero Absoluto), que promete capacitar modelos de linguagem ampla (LLMs) a atingir níveis de raciocínio sobre-humanos de forma autônoma, aprendendo e evoluindo sem a necessidade de dados externos ou supervisão humana contínua. Esta abordagem inovadora, detalhada em um artigo de pesquisa intitulado "Absolute Zero: Reinforced Self-play Reasoning with Zero Data", representa um passo promissor para superar um dos maiores gargalos no desenvolvimento da IA: a dependência de vastos conjuntos de dados curados por humanos.
O conceito central do "Absolute Zero" (AZ) é permitir que um modelo de IA aprenda simultaneamente a definir tarefas que maximizem sua capacidade de aprendizado e a resolvê-las efetivamente. Isso é alcançado através da autoevolução por meio do "self-play" (jogo consigo mesmo), sem depender de dados externos. De acordo com os pesquisadores da Universidade de Tsinghua, do Instituto de Inteligência Artificial Geral de Pequim e da Universidade Estadual da Pensilvânia, que assinam o estudo, "acreditamos que o paradigma 'Absolute Zero' representa um passo promissor para permitir que modelos de linguagem ampla alcancem autonomamente capacidades de raciocínio sobre-humanas".
Este paradigma se baseia no feedback do ambiente como uma fonte verificável de recompensa, espelhando como os humanos aprendem e raciocinam através da interação com o mundo. O sistema AZ, especificamente o "Absolute Zero Reasoner" (AZR), propõe e resolve tarefas de codificação, validando a integridade da tarefa e fornecendo feedback para o treinamento estável.
Para entender a magnitude do "Absolute Zero", é útil compará-lo com abordagens anteriores de treinamento de IA.
No aprendizado supervisionado, um humano controla diretamente a IA para atingir um objetivo definido, fornecendo dados rotulados. Embora eficaz, este método é intensivo em mão de obra e limitado pela qualidade e quantidade dos dados disponíveis.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR), como o utilizado pelo DeepSeek-AI, permite que os agentes aprendam por si mesmos, mas ainda depende de distribuições definidas por especialistas e de um conjunto selecionado de pares de perguntas e respostas para treinamento. O humano define o objetivo, mas não controla diretamente a IA. O RLVR demonstrou ser promissor no aprimoramento das capacidades de raciocínio de LLMs, aprendendo diretamente de recompensas baseadas em resultados.
O "Absolute Zero" vai além. Nele, a própria IA define o objetivo (propõe a tarefa) e aprende a alcançá-lo. Este método, particularmente a variante "zero" do paradigma RLVR, dispensa a necessidade de dados de destilação iniciais, utilizando traços de raciocínio não gerados por humanos nem por IA, aplicando o RLVR diretamente no par de modelo base com recompensas de tarefa. A escassez de exemplos de alta qualidade produzidos por humanos levanta preocupações sobre a escalabilidade a longo prazo da dependência da supervisão humana, um desafio já evidente no pré-treinamento de modelos de linguagem. O "Absolute Zero" aborda essas preocupações propondo um novo paradigma RLVR onde um único modelo aprende a propor tarefas que maximizam seu próprio progresso de aprendizado e melhora o raciocínio resolvendo-as, sem depender de dados externos.
Um dos maiores obstáculos para o avanço da IA tem sido a necessidade de dados de treinamento de alta qualidade. A curadoria humana é cara, demorada e, em cenários onde a IA supera a inteligência humana, os dados fornecidos por humanos podem oferecer um potencial de aprendizado limitado para um sistema superinteligente. O "Absolute Zero" contorna esse problema ao permitir que o "Absolute Zero Reasoner" (AZR) autoevolua seu currículo de treinamento e capacidade de raciocínio. O AZR utiliza um executor de código para validar tarefas de raciocínio de código propostas e verificar respostas, servindo como uma fonte unificada de recompensa verificável para guiar o aprendizado fundamentado em tarefas abertas.
Apesar de ser treinado inteiramente sem dados externos, o AZR alcança desempenho de ponta (SOTA) em tarefas de codificação e raciocínio matemático, superando os modelos existentes de configuração zero em dezenas de milhares de escalas curadas por humanos. Isso demonstra que o AZR pode ser aplicado efetivamente em diferentes modelos de escala e é compatível com várias classes de modelos.
As implicações do paradigma "Absolute Zero" são vastas. A capacidade de uma IA de gerar seus próprios dados de treinamento e aprender com eles de forma autônoma pode levar a um crescimento exponencial em suas capacidades. O estudo destaca vários achados interessantes:
O "Absolute Zero" propõe um loop de aprendizado infinito, onde o modelo propõe, resolve, verifica e atualiza seu conhecimento continuamente. Isso elimina a necessidade de resolver o "problema do começo frio" (cold-start problem) na obtenção de dados iniciais.
O paradigma "Absolute Zero" e o "Absolute Zero Reasoner" representam uma direção de pesquisa empolgante e potencialmente disruptiva no campo da inteligência artificial. Ao remover a dependência crítica da curadoria humana de dados, essa abordagem abre caminho para que a IA aprenda e melhore a um ritmo sem precedentes. Embora os "momentos uh-oh" levantem questões importantes sobre segurança e alinhamento, o potencial para alcançar capacidades de raciocínio verdadeiramente sobre-humanas de forma autônoma é um marco significativo. Este trabalho, originado de instituições de pesquisa de ponta, pode ser o catalisador para o próximo grande salto na evolução da inteligência artificial, aproximando-nos de um futuro onde as máquinas não apenas aprendem conosco, mas aprendem por si mesmas, possivelmente superando as limitações humanas.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.