Yann LeCun: Por Que os Modelos de Linguagem Grandes (LLMs) Não Levarão à AGI
A "Profecia" de LeCun: Além dos LLMs
Em um evento recente da NVIDIA, o renomado cientista-chefe de IA da Meta, Yann LeCun, fez uma declaração que pode ter surpreendido muitos na comunidade de inteligência artificial: ele não está mais tão interessado em Modelos de Linguagem Grandes (LLMs). Sua fala gerou discussões e levantou um ponto crucial sobre o caminho para a Inteligência Artificial Geral (AGI).
LeCun, uma figura central no desenvolvimento da IA moderna, argumenta que, embora os LLMs tenham feito avanços notáveis na compreensão e geração de texto, eles possuem limitações fundamentais que impedem o avanço para a AGI. Ele compara o entusiasmo atual com os LLMs a ondas anteriores de euforia na IA, que historicamente resultaram em "invernos da IA" — períodos de desilusão e financiamento reduzido após expectativas elevadas e resultados não correspondentes.
Para LeCun, a ideia de que apenas o escalonamento dos LLMs (mais dados, mais computação) levará à inteligência em nível humano é "totalmente sem sentido". Ele aponta que, embora existam aplicações importantes para os LLMs na indústria e em serviços, elas não abordam as questões mais profundas e complexas necessárias para a AGI. Ele sugere que a comunidade de tecnologia deveria estar mais animada com outras áreas que, no momento, podem parecer "papéis acadêmicos obscuros", mas que serão cruciais em cinco anos.
Modelos de Mundo: A Chave para a Inteligência Física
A alternativa de LeCun para os LLMs na busca pela AGI reside nos "modelos de mundo". Ele destaca que a capacidade de máquinas compreenderem o mundo físico, terem memória persistente, raciocinar e planejar são os pilares para a verdadeira inteligência. Essa perspectiva é ecoada por outros líderes da indústria, como Demis Hassabis, CEO do Google DeepMind, que também enfatiza a construção de modelos de mundo para IA, inclusive através de projetos como o Google Project Astra, que visa permitir que a IA experimente o mundo através dos olhos dos usuários.
Entendendo o Mundo Físico
Um modelo de mundo é uma representação mental do ambiente que permite a uma IA prever como as coisas se comportarão, mesmo sem ter experimentado diretamente todas as situações. LeCun usa o exemplo de uma garrafa de água: se a empurrar por cima, ela cairá; se empurrar por baixo, ela deslizará. Esse conhecimento intuitivo da física é algo que humanos e até animais (como um filhote de cachorro aprendendo a buscar uma bola) adquirem nos primeiros meses de vida, algo que os LLMs atuais não conseguem replicar de forma eficaz.
A Diferença entre Tokens e Realidade
A principal crítica de LeCun aos LLMs é que eles operam com "tokens" – unidades discretas de dados (palavras, subpalavras, pixels discretos). Ele explica que, embora os LLMs possam prever a próxima sequência de tokens, a realidade é contínua e de alta dimensão. Ele compara o mundo real a um espectro contínuo de cores, enquanto a representação digital em uma tela de computador é discreta, com um número limitado de cores. Para LeCun, tentar fazer uma IA prever o mundo real pixel por pixel ou token por token é um desperdício de recursos, pois muitos eventos são imprevisíveis nesse nível.
Em sua visão, para a AGI, precisamos de uma arquitetura que opere em um "espaço latente" ou "espaço abstrato" contínuo. Ele propõe a arquitetura Jeppa (Joint Embedding Predictive Architecture), que visa aprender representações abstratas do mundo (visuais, auditivas, etc.) e usá-las para planejar e raciocinar, em vez de prever os dados brutos.
Além da Geração de Texto: Aplicações Reais da IA
LeCun acredita que as aplicações mais impactantes da IA não virão dos LLMs como os conhecemos hoje, mas sim de sistemas que compreendem e interagem com o mundo físico. Ele cita diversas áreas:
Saúde e Biotecnologia
Na medicina e na ciência, a IA já está revolucionando áreas como o dobramento de proteínas, o design de medicamentos e o aprimoramento de exames médicos (mamografias, ressonâncias magnéticas). Ele enfatiza que esses avanços não são baseados em IA generativa de texto, mas sim em sistemas de percepção e raciocínio sobre dados do mundo real.
Transporte Autônomo e Robótica
Sistemas de assistência ao motorista e frenagem automática de emergência, que já reduzem acidentes em 40%, são exemplos de IA baseada em percepção e controle. LeCun prevê que a condução totalmente autônoma (nível 5) ainda está distante, mas o progresso depende da capacidade da IA de construir um modelo interno do mundo para prever as consequências das ações e agir de forma segura.
O Debate "System 1 vs. System 2": Um Olhar Psicológico na IA
LeCun relaciona sua visão com a teoria psicológica dos sistemas de pensamento "Sistema 1" (rápido, intuitivo, automático) e "Sistema 2" (lento, deliberativo, focado na resolução de problemas). Ele argumenta que os LLMs atuais são bons no "Sistema 1", gerando respostas rápidas e contextualmente relevantes, mas falham no "Sistema 2", que envolve raciocínio complexo, planejamento e a capacidade de aprender novas tarefas com poucas tentativas (zero-shot learning).
Segundo LeCun, quando aprendemos algo novo, usamos o Sistema 2. Mas, com a prática, o conhecimento é "compilado" em uma "política" que se torna parte do Sistema 1, permitindo a execução automática e sem esforço. Ele defende que a AGI precisa de uma arquitetura que possa fazer essa transição, algo que os LLMs atuais não conseguem.
O Futuro da IA: Não é Sobre Escala, é Sobre Arquitetura
A mensagem principal de LeCun é clara: o caminho para a AGI não está em simplesmente escalar os LLMs existentes ou focar apenas em dados textuais. Ele propõe que o grande salto virá de uma nova arquitetura, o modelo de mundo Jeppa, que permite que a IA construa uma compreensão contínua e de alta dimensão do mundo real. Ele afirma que isso permitirá que a IA planeje, raciocine e atue de forma segura em ambientes complexos, assim como humanos e animais.
Apesar de sua perspectiva cética em relação ao futuro imediato dos LLMs para AGI, LeCun mantém um otimismo a longo prazo, sugerindo que, embora ainda "muito longe" da inteligência geral, poderemos ver avanços significativos dentro de uma década, impulsionados por estas novas arquiteturas que priorizam a compreensão do mundo físico sobre a mera manipulação de tokens.