A Google, em seu recente evento Google I/O, demonstrou um forte compromisso com a vanguarda da inteligência artificial, anunciando uma série de 15 atualizações impactantes. O foco central, como destacado pela empresa, é a missão de prover "janelas de contexto infinitas para IA", uma ambição que promete revolucionar a forma como interagimos com a tecnologia. Esses avanços abrangem desde melhorias em seus modelos de linguagem Gemini até novas ferramentas criativas e otimizações em seus produtos mais populares.
Essas inovações são relevantes para uma vasta gama de profissionais e entusiastas, incluindo afiliados de marketing, influenciadores digitais, YouTubers e qualquer pessoa que deseje se manter atualizada no dinâmico mundo digital. A seguir, detalhamos os principais anúncios que marcaram o evento.
A Google apresentou uma gama impressionante de atualizações, sinalizando uma nova fase para suas ferramentas de IA. Vamos explorar cada uma delas:
O modelo Gemini 1.5 Pro recebeu um upgrade significativo em sua janela de contexto, agora com capacidade para 1 milhão de tokens – o equivalente a processar o conteúdo de aproximadamente oito livros. Sua funcionalidade multimodal foi aprimorada, permitindo, por exemplo, obter receitas a partir de fotos de pratos ou soluções passo a passo para problemas matemáticos baseadas em imagens. O Gemini Flash surge como uma alternativa mais leve e veloz, otimizada para tarefas que exigem respostas rápidas, mantendo a capacidade multimodal e uma janela de contexto de até 1 milhão de tokens.
Essa expansão na janela de contexto, como informado pela Google, permite que os modelos Gemini processem volumes massivos de dados simultaneamente – sejam textos, áudios ou vídeos. Isso é particularmente útil para criadores de conteúdo, como YouTubers e blogueiros, que podem economizar centenas de horas em pesquisa e análise, resultando em conteúdo de maior qualidade com um tempo de produção reduzido.
Para os desenvolvedores, a Google liberou acesso a uma janela de contexto de impressionantes 2 milhões de tokens com o Gemini 1.5 Pro. Essa capacidade permite a criação de ferramentas de IA ainda mais sofisticadas, incluindo aquelas que escrevem código de programação, auxiliam na depuração (encontrar bugs) e no desenvolvimento de novas aplicações. A visão da Google, conforme expresso no evento, é caminhar em direção a uma janela de contexto verdadeiramente infinita.
O Google Fotos receberá um novo recurso de IA chamado "Ask Photos". Ele permitirá aos usuários pesquisar em suas bibliotecas de fotos e vídeos utilizando linguagem natural, como perguntar pelo número da placa de um carro específico ou por fotos de um evento particular, como "quando minha filha aprendeu a nadar". A IA entenderá o contexto e o conteúdo das mídias para fornecer resultados precisos rapidamente. Esse recurso tem previsão de lançamento para o verão americano.
A inteligência artificial Gemini será integrada ao Gmail e outras ferramentas do Google Workspace para otimizar o gerenciamento de e-mails e dados. Será possível sumarizar longas conversas de e-mail, organizar recibos automaticamente e extrair informações relevantes de documentos para planilhas. A Google exemplificou como a ferramenta poderá comparar diferentes orçamentos de reparo recebidos por e-mail, destacando preços e disponibilidade.
O Project Astra é a visão da Google para um assistente de IA universal. Ele não apenas responderá a texto, mas também ao que vê e ouve, compreendendo o contexto do ambiente do usuário em tempo real. Construído sobre o Gemini 1.5 Pro, o Astra promete melhorias em tradução, codificação e raciocínio. A demonstração mostrou o Astra funcionando em um smartphone Google Pixel e em protótipos de óculos inteligentes.
A Imagen 3 é a mais nova ferramenta de geração de mídia fotorrealista da Google. Projetada para criar imagens altamente detalhadas e realistas com menos distorções visuais e artefatos em comparação com modelos anteriores, ela demonstrou capacidade de, por exemplo, contar os bigodes no focinho de um animal ou renderizar textos complexos feitos de objetos.
Para os criadores de música, a Google anunciou o Music AI Sandbox, um conjunto de ferramentas de IA que permite aos usuários criar novas seções instrumentais do zero, transferir estilos entre faixas e explorar outras possibilidades criativas com música gerada por IA.
O VideoFX é uma nova ferramenta experimental da Google, potencializada pelo seu modelo de geração de vídeo Veo, desenvolvido pela Google DeepMind. Ele permitirá criar videoclipes a partir de prompts de texto, iterar cena por cena usando um modo storyboard e adicionar música. O Veo é capaz de gerar vídeos em alta definição (1080p) com mais de um minuto de duração, capturando o tom desejado e renderizando detalhes de prompts longos. A Google também mencionou uma colaboração com o cineasta Donald Glover, que experimentou o Veo em um projeto cinematográfico. Todos os vídeos gerados pelo VideoFX serão marcados d'água usando a tecnologia SynthID da Google para identificar conteúdo gerado por IA, uma medida importante para combater a desinformação e garantir a transparência, seguindo uma linha de preocupação também vista em ferramentas como o Sora da OpenAI.
A Google apresentou a sexta geração de suas Tensor Processing Units (TPUs), chamada Trillium. Essas TPUs oferecem uma melhoria de 4,7 vezes no desempenho de computação por chip em comparação com as gerações anteriores. Esse avanço em infraestrutura suportará aplicações de IA mais exigentes e estará disponível para clientes da nuvem no final de 2024.
A Busca Google em breve ajudará os usuários a planejar atividades e criar planos de refeições personalizados com mais facilidade. Será possível, por exemplo, encontrar estúdios de ioga ou pilates com avaliações e tempos de caminhada, ou decompor consultas complexas em partes gerenciáveis para obter respostas abrangentes.
Expandindo as capacidades de busca, os usuários poderão gravar um vídeo de um objeto ou situação e pedir ao Gemini para diagnosticar problemas e sugerir etapas de solução. Um exemplo demonstrado foi o de um toca-discos com defeito, onde a IA, analisando o vídeo, pôde identificar o problema e orientar o conserto.
Além das já mencionadas no item 5, o Gmail permitirá sumarizar longas conversas e gerar respostas diretamente do conteúdo do e-mail sem a necessidade de abrir cada mensagem individualmente. Isso agilizará a busca por informações específicas, como recibos ou mensagens importantes perdidas em meio a centenas de e-mails.
O Gemini poderá integrar informações da Busca Google, Google Maps, Gmail, Google Docs e mais para criar planos de férias personalizados. Os usuários poderão customizar itinerários com facilidade, e essa interface de usuário dinâmica estará disponível para usuários do Gemini Advanced a partir do verão americano.
A Google está incorporando IA generativa em todos os seus produtos do Google Workspace, começando com o Docs e Gmail, e estendendo-se ao Google Chat. O objetivo é permitir uma comunicação mais rápida e eficiente, além de acelerar o tempo de pesquisa e sumarização de informações em conversas.
Os anúncios do Google I/O deixam claro que a Google está investindo pesadamente para se manter na liderança da corrida da inteligência artificial. A expansão das capacidades do Gemini, especialmente com o aumento das janelas de contexto, e a integração de IA em seus produtos mais utilizados, como a Busca, Fotos, Gmail e Workspace, têm o potencial de transformar significativamente a produtividade e a criatividade dos usuários. A visão de uma janela de contexto infinita, embora ambiciosa, sinaliza um futuro onde a IA poderá compreender e processar informações de uma forma muito mais holística e poderosa. Resta acompanhar como esses avanços serão implementados e o impacto real que trarão para o nosso cotidiano digital.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.