Revolução na IA: Google e OpenAI Lideram com Veo 2, Imagen 3, NotebookLM Interativo e Mais Novidades

O universo da Inteligência Artificial (IA) testemunhou uma semana de anúncios e atualizações significativas, com gigantes como Google e OpenAI disputando a vanguarda da inovação. Esta competição acirrada está impulsionando o desenvolvimento de ferramentas cada vez mais sofisticadas, beneficiando usuários e criadores de conteúdo. Neste artigo, mergulharemos nas principais novidades apresentadas, analisando o impacto e as possibilidades que se abrem com esses avanços.

Google Desencadeia uma Onda de Inovações em IA

O Google demonstrou sua força no campo da IA com uma série de lançamentos e atualizações em suas plataformas, abrangendo desde a geração de vídeo e imagem até ferramentas de produtividade e modelos de linguagem avançados.

Veo 2: A Nova Fronteira na Geração de Vídeos com IA

Provavelmente o anúncio de maior destaque do Google foi o Veo 2, seu modelo de IA para geração de vídeo. Considerado por muitos como o melhor modelo de vídeo visto até o momento, o Veo 2 impressiona pela capacidade de criar vídeos realistas, com um entendimento aprimorado de física e movimento. Uma característica notável é a geração de quatro opções de vídeo para cada prompt, aumentando as chances de se obter o resultado desejado. Para os interessados, o Google disponibilizou uma lista de espera para acesso antecipado através do Google Labs, em labs.google/fx/tools/video-fx. Além disso, foi apresentado um modelo Text to Image to Video, que primeiro cria uma imagem e depois a converte em vídeo, embora, por enquanto, não permita o upload de imagens próprias.

Imagen 3 e ImageFX: Qualidade Superior na Geração de Imagens

O modelo de geração de imagens do Google, Imagen 3, também recebeu melhorias, prometendo imagens mais brilhantes e com melhor composição. Esta tecnologia está acessível através do ImageFX no Google Labs. Similarmente ao Veo 2, o ImageFX gera quatro opções de imagem por prompt, e os resultados demonstram um alto nível de detalhe e qualidade.

Whisk: Remixando Ideias com Imagens e IA

Outra ferramenta interessante apresentada pelo Google é o Whisk, uma plataforma que permite a fusão criativa de múltiplas imagens para gerar novas composições. Um exemplo viral foi a criação de versões "pelúcia" de pessoas. O Whisk pode ser explorado em labs.google/fx/tools/whisk e já está disponível gratuitamente.

NotebookLM: Transformando Documentos em Podcasts Interativos

O NotebookLM, a plataforma do Google para interagir com documentos, recebeu uma reformulação visual e uma nova funcionalidade revolucionária: o modo interativo. Agora, é possível fazer upload de documentos, como transcrições de podcasts, e o NotebookLM não apenas gera um áudio desse conteúdo, mas permite que o usuário "entre" na conversa, fazendo perguntas e interagindo com as informações do documento de forma dinâmica.

Avanços no Gemini: Modelos Experimentais e "Thinking" Visível

Para os assinantes do Gemini Advanced, o Google liberou o acesso a um novo modelo experimental Gemini 2.0 Advanced, que já se destaca no ranking do Chatbot Arena. Além disso, foi revelado o Gemini 2.0 Flash Thinking, um modelo experimental que não apenas possui capacidades de raciocínio aprimoradas, mas também é capaz de mostrar seus "pensamentos" ou o processo de raciocínio. Esta novidade está disponível no AI Studio do Google.

YouTube: Criadores Poderão Optar por Treinamento de IA de Terceiros

O YouTube, de propriedade do Google, implementou uma nova funcionalidade que permite aos criadores de conteúdo optar por permitir que empresas terceirizadas utilizem o conteúdo de seus canais para treinar modelos de IA. Esta é uma resposta às preocupações sobre o uso de dados para treinamento de IA, dando mais controle aos criadores.

OpenAI em Destaque: Inovações Diárias e Aprimoramentos no ChatGPT

A OpenAI não ficou para trás e continuou sua série de anúncios "12 Dias de OpenAI", revelando novas funcionalidades e melhorias significativas, principalmente em torno do ChatGPT.

Destaques dos "12 Dias de OpenAI" (Dias 7-11)

  • Projetos no ChatGPT (Dia 7): Introdução de "Projetos", que funcionam essencialmente como pastas, permitindo aos usuários organizar seus chats, arquivos e instruções personalizadas de forma mais eficiente.
  • Funcionalidade de Busca para Todos (Dia 8): A capacidade de busca na web dentro do ChatGPT, antes restrita a planos pagos, foi liberada para todos os usuários, incluindo os do plano gratuito.
  • Modelo o1 na API (Dia 9): O modelo o1, conhecido por suas avançadas capacidades de raciocínio e pensamento, agora está disponível na API, permitindo que desenvolvedores o integrem em suas próprias aplicações.
  • 1-800-ChatGPT (Dia 10): Um novo recurso que permite aos usuários ligar para um número (1-800-ChatGPT, inicialmente para os EUA, com outras regiões via WhatsApp) e interagir com o ChatGPT por voz, similar ao modo de voz avançado já existente no aplicativo.
  • Melhorias no App para Mac (Dia 11): O aplicativo do ChatGPT para Mac agora possui integração com mais ferramentas, expandindo suas funcionalidades. A versão para Windows está prevista para breve.

Ecossistema de IA em Expansão: Mais Ferramentas e Parcerias

Além dos gigantes, diversas outras empresas e instituições de pesquisa contribuíram com novidades importantes para o cenário da IA.

Novidades em Código, Imagem e Vídeo

  • GitHub Copilot com Nível Gratuito: O GitHub Copilot agora oferece um nível gratuito dentro do VS Code, com até 50 interações de chat e 2000 conclusões de código por mês.
  • Tradução em Tempo Real da Microsoft: A Microsoft está lançando tradução em tempo real nas legendas ao vivo para PCs Copilot+ no Canal Dev.
  • Bing Image Creator Aprimorado: O Bing Image Creator foi atualizado com o mais recente modelo DALL-E 3 (PR16), permitindo criação de imagens mais rápida e diretamente da barra de pesquisa do Bing.
  • Meta Ray-Ban Smart Glasses com IA em Tempo Real: Os óculos inteligentes Meta Ray-Ban receberam uma atualização que adiciona vídeo com IA em tempo real, tradução de conversas em tempo real, dispensa da palavra de ativação "Hey Meta" e suporte ao Shazam.
  • Instagram Teaser de Ferramentas de Edição de Vídeo com IA: O Instagram, da Meta, está provocando novas ferramentas de edição de vídeo com IA, utilizando o modelo Movie Gen AI da Meta, com lançamento previsto para o próximo ano.
  • Pika 2.0 e Scene Ingredients: A Pika lançou seu modelo 2.0, que inclui uma funcionalidade chamada "Scene Ingredients". Similar ao Whisk do Google, permite o upload de imagens de personagens, objetos e locais para influenciar a geração de vídeo. A plataforma está oferecendo acesso gratuito por tempo limitado (até 22 de dezembro).
  • Kling AI 1.6: O modelo de vídeo Kling AI foi atualizado para a versão 1.6, com melhorias na aderência aos prompts, estética visual e ações físicas.
  • Runway Talent Network: A Runway anunciou a Runway Talent Network, uma nova plataforma de mídia para descobrir e contratar criativos que utilizam IA.
  • Odyssey e Modelos Generativos de Mundo: A empresa Odyssey apresentou seus modelos generativos de mundo para cinema, jogos e além. Notavelmente, Ed Catmull, cofundador da Pixar, faz parte do conselho da Odyssey. Esses modelos parecem gerar espaços 3D (Gaussian Splats ou NerFs) a partir de prompts.
  • Projeto Genesis: Um motor de física generativo chamado Projeto Genesis foi revelado. Trata-se de um motor de física capaz de criar mundos dinâmicos 4D, com código aberto sob licença Apache 2.0. As demonstrações incluem simulações físicas complexas, como uma gota d'água deslizando por uma garrafa de cerveja, com visualização das forças aplicadas.
  • Leonardo AI com Phoenix 1.0 e Flux: A Leonardo AI atualizou sua plataforma com o novo modelo Phoenix 1.0, uma melhoria sobre o 0.9, e integrou o modelo Flux, conhecido por seu realismo.
  • Midjourney Moodboards: O Midjourney introduziu os "Moodboards", uma forma de treinar o modelo em um estilo específico utilizando uma coleção de imagens de referência, funcionando de maneira similar a um LoRA personalizado.
  • ElevenLabs Flash TTS: A ElevenLabs lançou o Flash, um novo modelo Text-to-Speech (TTS) capaz de gerar fala em apenas 75 milissegundos, abrindo portas para interações de IA em tempo real com voz.

IA para Acessibilidade e Robótica

  • IA para Língua de Sinais: Pesquisadores da Florida Atlantic University desenvolveram um sistema de IA capaz de reconhecer a Língua Americana de Sinais (ASL) com precisão.
  • Parceria Apptronik e Google DeepMind: A empresa de robótica Apptronik anunciou uma parceria estratégica com o Google DeepMind para acelerar o avanço em robôs humanoides alimentados por IA.
  • Supercomputador de IA Acessível da NVIDIA: A NVIDIA revelou o Jetson Orin Nano, um supercomputador de IA em miniatura, com preço abaixo de US$300, projetado para alimentar robôs e outras aplicações de IA.

Conclusão: Uma Era Dourada para a Inovação em IA

A recente onda de anúncios demonstra o ritmo frenético da inovação no campo da Inteligência Artificial. A competição saudável entre gigantes como Google e OpenAI, juntamente com as contribuições de diversas outras empresas e pesquisadores, está resultando em ferramentas cada vez mais poderosas e acessíveis. Para os consumidores e criadores, este é um momento empolgante, com novas possibilidades se abrindo a cada dia. A promessa de 2025 é de ainda mais avanços, e a comunidade de IA aguarda ansiosamente para ver o que o futuro reserva. Para se manter atualizado sobre as últimas novidades e ver demonstrações ao vivo dessas ferramentas, acompanhe as transmissões ao vivo "AI Sandbox" no canal Matt Wolfe no YouTube, toda segunda-feira às 11h, horário do Pacífico.