O Google I/O, evento anual do Google para desenvolvedores, mais uma vez colocou a inteligência artificial (IA) no centro das atenções, revelando uma série de avanços e novos produtos que prometem transformar nossa interação com a tecnologia. Desde a evolução da família de modelos Gemini até projetos futuristas como o Google Beam e o Projeto Astra, a gigante da tecnologia demonstrou um ritmo implacável de inovação. Este artigo mergulha nos principais anúncios, analisando o impacto dessas novidades e o que elas representam para o futuro da IA.
Há cerca de um ano, muitos questionavam a estratégia de inteligência artificial do Google, especialmente após uma recepção morna de seus anúncios no Google I/O anterior. Contudo, o cenário mudou drasticamente. Conforme destacado em uma apresentação no evento, o Google está "entregando em ritmo implacável" (Shipping at Relentless Pace). A empresa apresentou uma linha do tempo impressionante de lançamentos e pesquisas, incluindo modelos como AlphaFold 3, Imagen 3, Gemma 2, e os aguardados Projeto Astra e Projeto Mariner. Além disso, foram anunciadas evoluções significativas na família Gemini, como o Gemini 2.0 Flash, Gemini 2.5 Pro, Gemma 3 e o AlphaEvolve.
Um dos dados mais impactantes revelados foi o crescimento exponencial no processamento de tokens mensais. Em apenas um ano, o volume saltou de 9,7 trilhões para mais de 480 trilhões de tokens processados globalmente pelas superfícies do Google. Este aumento de aproximadamente 50 vezes não apenas reflete a rápida adoção da inteligência artificial pelos usuários, mas também a profundidade de uso e a introdução de modelos de "pensamento" (thinking models) que utilizam um volume maior de tokens para tarefas mais complexas. Este é um indicativo claro de que, apesar dos avanços, ainda estamos no início de uma grande inflexão na era da IA.
O que antes era conhecido como Projeto Starline, a revolucionária tecnologia de vídeo 3D do Google, foi renomeado para Google Beam. O objetivo é criar a sensação de estar na mesma sala que outra pessoa, mesmo à distância. Utilizando múltiplas câmeras e inteligência artificial para reconstruir a imagem em 3D, a experiência é descrita como impressionante, similar ao efeito 3D do console Nintendo 3DS, mas aplicado à videoconferência. A pessoa do outro lado da tela parece tridimensional, e a interação ganha um novo nível de realismo. Inicialmente, o Google Beam será focado em aplicações empresariais, buscando aprimorar reuniões e colaborações remotas.
O Projeto Astra foi um dos destaques, apresentando a visão do Google para um assistente de inteligência artificial verdadeiramente multimodal. Integrado ao aplicativo Gemini, o Projeto Astra permitirá que os usuários utilizem a câmera do celular para interagir com o mundo real de formas inovadoras. Será possível apontar a câmera para objetos e obter informações, pedir para a IA lembrar de coisas específicas (como onde você deixou seus óculos) e identificar elementos ao seu redor. Uma demonstração divertida exibida no Google I/O mostrou o Projeto Astra corrigindo um usuário que confundiu um caminhão de lixo com um carro conversível, evidenciando sua capacidade de compreensão contextual e interação natural. Partes do Projeto Astra começarão a ser implementadas no aplicativo Gemini em breve.
Outra novidade promissora é o Projeto Mariner, um agente de inteligência artificial projetado para interagir com a web e realizar tarefas complexas. Este projeto se alinha com a crescente tendência de agentes de IA capazes de executar ações em nome do usuário, similar a iniciativas como o Operator da OpenAI, Browserbase e RunnerH. O Google anunciou que as capacidades de agente do Projeto Mariner serão integradas ao Chrome, à Busca e ao aplicativo Gemini, sob o nome de "Modo Agente" (Agent Mode). Uma demonstração ilustrou como o Modo Agente no Gemini poderia ajudar a encontrar um apartamento, pesquisando em sites como o Zillow, filtrando resultados com base em critérios específicos (como orçamento e comodidades) e até agendando visitas. A capacidade de realizar múltiplas tarefas de forma assíncrona e lidar com processos de longa duração é um dos grandes trunfos dessa tecnologia.
A personalização é um pilar fundamental na visão do Google para a inteligência artificial. A empresa está trabalhando para que seus assistentes de IA possam acessar e utilizar o contexto pessoal do usuário a partir de diversos serviços do ecossistema Google, como YouTube, Gmail, Google Agenda e outros aplicativos Google. Isso permitirá respostas mais relevantes e proativas. Um exemplo prático são as respostas inteligentes personalizadas no Gmail, que levarão em consideração o histórico de interações do usuário e o conteúdo de seus e-mails e documentos para sugerir respostas mais adequadas e personalizadas. Essa integração profunda de dados pessoais com a IA, segundo o Google, visa criar um assistente verdadeiramente útil e contextualizado.
O modelo Gemini 2.5 Pro está recebendo um novo modo chamado "Deep Think". Esta funcionalidade foi projetada para lidar com problemas que exigem raciocínio mais profundo e complexo, indo além das respostas rápidas. Os resultados em benchmarks desafiadores, como o USAMO 2025 (Olimpíada de Matemática dos EUA), LiveCodeBench v6 e MMLU, demonstram a capacidade aprimorada do modelo nessas tarefas. O Deep Think representa um esforço para levar a performance dos modelos aos seus limites em termos de capacidade de pensamento e resolução de problemas.
O Google também introduziu o Gemini Diffusion, um modelo de geração de texto baseado na arquitetura de difusão. Modelos de difusão são comumente associados à geração de imagens, mas sua aplicação na geração de texto é uma área de pesquisa emergente. A principal vantagem, conforme demonstrado, é a velocidade. Esses modelos tendem a ser significativamente mais rápidos que as arquiteturas baseadas em transformers, gerando texto de forma quase instantânea e iterativa, removendo o "ruído" até chegar à saída final. Embora a qualidade possa ser um desafio em comparação com modelos tradicionais para texto, os avanços são promissores.
Durante o evento, houve indicações de que a série de modelos Gemini está evoluindo para se tornar "Modelos de Mundo" (World Models). A ideia é que esses modelos não apenas processem informações, mas também compreendam o mundo ao nosso redor, incluindo as leis da física e o comportamento intuitivo dos objetos. Isso foi exemplificado com as capacidades do Veo, o modelo de geração de vídeo que demonstra um entendimento da física, e do Gemini Robotics, que ensina robôs a realizar tarefas no mundo real. Transformar o Gemini em um Modelo de Mundo completo é visto como um passo crítico para desbloquear um novo tipo de inteligência artificial, mais capaz e consciente de seu ambiente.
O Veo 3 é a mais recente iteração do modelo de geração de texto para vídeo do Google, e a grande novidade é a inclusão da geração de áudio. Isso o torna um modelo de geração de mídia verdadeiramente multimodal, capaz de criar não apenas o visual, mas também os efeitos sonoros e a trilha sonora correspondente ao vídeo gerado. Uma demonstração de uma coruja e um texugo na floresta, completa com diálogos e sons ambientes, ilustrou o potencial dessa tecnologia.
Para a geração de imagens, o Google apresentou o Imagen 4, que promete não apenas alta qualidade, mas também uma velocidade até 10 vezes maior que seu predecessor. Essa melhoria na velocidade é crucial para a iteração rápida de ideias. Juntamente com o Imagen 4, foi anunciado o Flow, uma nova ferramenta que oferece controle criativo mais granular sobre a geração de vídeo. Similar ao Sora da OpenAI em conceito, o Flow permite que os usuários utilizem texto e imagens como "ingredientes" para construir cenas de vídeo, oferecendo mais flexibilidade e personalização no processo criativo.
O Google também demonstrou sua visão para o futuro da computação vestível com os óculos Android XR. Em uma demonstração ao vivo, uma pessoa nos bastidores utilizou os óculos, que projetavam informações diretamente nas lentes. Era possível ver a temperatura, notificações de mensagens e até mesmo um mapa de navegação projetado no chão quando a usuária olhava para baixo. Apesar de alguns momentos de instabilidade, típicos de demonstrações ao vivo de tecnologias emergentes, a experiência mostrou o potencial dos óculos inteligentes como uma interface para a inteligência artificial, similar em conceito aos Meta Ray-Ban, mas com a adição crucial de projeções visuais.
O Google I/O deste ano solidificou a posição do Google como um líder inovador no campo da inteligência artificial. Com uma avalanche de anúncios que abrangem desde modelos fundamentais até aplicações práticas e experiências futuristas, fica claro que a empresa está investindo pesado para moldar a próxima era da tecnologia. Como o próprio Sundar Pichai, CEO do Google, mencionou em entrevista ao apresentador do vídeo, a empresa está focada em levar os frutos de mais de uma década de pesquisa em IA para produtos tangíveis. O futuro, impulsionado pela inteligência artificial, parece mais próximo e mais emocionante do que nunca.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.