A Inteligência Artificial Geral (AGI), um marco onde as máquinas igualariam ou superariam a inteligência humana em qualquer tarefa intelectual, continua sendo um dos objetivos mais ambiciosos da ciência. Em uma entrevista reveladora, Demis Hassabis, CEO da Google DeepMind, compartilhou sua perspectiva sobre o cronograma para alcançar a AGI e os avanços arquitetônicos necessários, como os modelos multimodais, incluindo o Gemini.
Demis Hassabis, uma figura proeminente na vanguarda da pesquisa em IA, ofereceu insights valiosos sobre a jornada em direção à AGI. Sua visão não apenas delineia um possível cronograma, mas também destaca as inovações cruciais que moldarão o futuro da inteligência artificial.
Hassabis acredita que ainda são necessárias "duas ou três grandes inovações" para chegarmos à AGI. Por essa razão, ele se posiciona em uma escala de tempo de aproximadamente dez anos para esse avanço monumental. Essa estimativa contrasta com previsões mais otimistas de outros especialistas. Por exemplo, Dario Amodei, CEO da Anthropic (criadora do chatbot Claude), sugeriu que uma IA poderosa poderia surgir já em 2026. Enquanto isso, Sam Altman, CEO da OpenAI, expressou que a superinteligência artificial poderia estar a "alguns milhares de dias" de distância. Hassabis reconhece que alguns de seus colegas e competidores trabalham com cronogramas mais curtos, mas mantém sua estimativa de uma década como mais realista.
De acordo com Demis Hassabis, os Modelos de Linguagem Gigantes (LLMs), embora impressionantes, não são suficientes por si sós para constituir uma AGI. Ele enfatiza que o termo "LLM" já não é o mais adequado, pois os modelos de ponta, como o Gemini da Google DeepMind, são intrinsecamente multimodais desde o início. Isso significa que eles podem processar e integrar informações de diversas fontes, incluindo visão, áudio, vídeo, código e texto.
A multimodalidade é vista por Hassabis como um componente chave de um sistema AGI, mas não o único. São necessárias inovações adicionais em áreas como planejamento de longo prazo, raciocínio robusto, capacidade de realizar ações no mundo real e uma memória mais sofisticada e confiável.
Um aspecto interessante destacado por Demis Hassabis é a convergência entre as necessidades de produtos de consumo e os objetivos da pesquisa em AGI. Ele argumenta que as funcionalidades necessárias para produtos de IA úteis para os consumidores são, em grande parte (cerca de 90%), similares ao tipo de pesquisa que se faria de qualquer maneira em direção à AGI. O desenvolvimento de assistentes de IA multimodais, como o Project Astra da Google, exemplifica essa sinergia. Esses produtos, ao buscarem interações mais naturais e capazes com os usuários, impulsionam a pesquisa em áreas fundamentais para a AGI.
A jornada para a AGI é repleta de desafios que exigem avanços significativos. A superação das limitações atuais e o desenvolvimento de novas capacidades são essenciais.
Hassabis aponta que os sistemas de IA atuais, incluindo os chatbots mais avançados, são em grande medida passivos – são excelentes como sistemas de perguntas e respostas, mas carecem de proatividade. Para alcançar a AGI, é preciso evoluir para sistemas baseados em agentes, capazes de realizar ações no mundo, seja ele digital ou físico, para atingir objetivos complexos.
As capacidades de planejamento, raciocínio e ação são consideradas cruciais por Demis Hassabis. Isso envolve não apenas a compreensão do ambiente, mas também a formulação de planos de múltiplos passos e a execução de ações para alcançar metas. Um componente vital para isso é o "uso de ferramentas". Uma AGI precisará ser capaz de utilizar diversas ferramentas, que podem incluir hardware (como robôs para interagir com o mundo físico), software (como calculadoras ou outros programas especializados) e até mesmo outros sistemas de IA.
Existe um debate em curso na comunidade de pesquisa sobre a melhor abordagem arquitetônica para a AGI. Uma vertente busca "empacotar" todas as capacidades em um único modelo massivo. Outra, mais alinhada com a abordagem neurosimbólica ou de "mistura de especialistas" (como a que se acredita ser utilizada no GPT-4 da OpenAI), sugere que um sistema AGI geral poderia atuar como um "cérebro" coordenador, capaz de invocar sistemas de IA especializados para tarefas específicas, como o AlphaFold para o enovelamento de proteínas ou o AlphaGo para jogar Go. Hassabis menciona que a decisão de integrar uma capacidade especializada diretamente no modelo principal ou mantê-la como uma ferramenta separada envolve trade-offs, como o risco de sobrecarregar o modelo geral com informações muito específicas, o que poderia prejudicar seu desempenho em outras áreas, como a linguagem.
As percepções de Demis Hassabis reforçam que, embora o progresso em inteligência artificial seja rápido, a AGI ainda requer avanços fundamentais. A multimodalidade, o planejamento, o raciocínio, a ação e a memória aprimorada são apenas alguns dos desafios. A convergência da pesquisa com o desenvolvimento de produtos úteis e a exploração de diferentes arquiteturas de IA, como o Project Astra, serão cruciais nesta jornada de aproximadamente uma década, segundo o CEO da Google DeepMind, para desvendar o potencial completo da inteligência artificial.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.