Panorama Semanal da IA: Gen-3 Alpha, ElevenLabs com Vozes Icônicas, Avanços da Meta e Mais

Panorama Semanal da IA: Gen-3 Alpha, ElevenLabs com Vozes Icônicas, Avanços da Meta e Mais

Nesta semana, o universo da Inteligência Artificial (IA) continuou sua marcha de inovações, apesar de uma ligeira desaceleração nos grandes anúncios, possivelmente devido ao feriado de 4 de julho nos Estados Unidos, como observado por Matt Wolfe em seu resumo semanal de notícias de IA. No entanto, isso não significa que faltaram novidades interessantes. Desde o acesso público a novas ferramentas de geração de vídeo até atualizações em aplicativos de áudio e modelos de linguagem, o campo da IA segue vibrante e cheio de desenvolvimentos promissores.

Novidades em Geração de Vídeo com IA

A capacidade de transformar texto e imagens em vídeo através da IA continua a evoluir rapidamente, com novas ferramentas e atualizações surgindo constantemente.

Runway ML e o Lançamento Público do Gen-3 Alpha

Uma das notícias mais aguardadas foi o lançamento do acesso público ao Runway ML Gen-3 Alpha. Conforme detalhado no vídeo de Matt Wolfe, esta ferramenta de texto para vídeo, que ele já havia explorado anteriormente, tornou-se disponível para usuários com planos Pro. Embora usuários do plano gratuito não tenham acesso, os assinantes Pro podem encontrar a opção "Introducing Gen-3 Alpha" na seção de geração de vídeos da plataforma. Matt Wolfe compartilhou sua experiência ao tentar criar um vídeo temático para o 4 de julho com o prompt "uma águia careca voando em frente a uma bandeira americana com fogos de artifício ao fundo". O resultado, embora não perfeito e com uma representação um tanto peculiar da águia, demonstra a capacidade atual do Gen-3 como o principal gerador de texto para vídeo disponível.

Demonstração do Gen-3 Alpha da Runway ML com uma águia e a bandeira americana.
Demonstração do Gen-3 Alpha da Runway ML com uma águia e a bandeira americana, conforme apresentado no vídeo de Matt Wolfe.

Luma AI: A Escolha para Imagem para Vídeo

Em contrapartida, para a geração de vídeo a partir de imagens (imagem para vídeo), Matt Wolfe ainda considera o Luma AI como a melhor opção. Ele demonstrou que, ao fornecer o mesmo prompt do 4 de julho a um gerador de imagens e depois usar essa imagem no Luma AI, o resultado foi consideravelmente mais impressionante e alinhado com a intenção original. Atualmente, o Gen-3 Alpha da Runway ML ainda não oferece funcionalidade de imagem para vídeo.

Resultado da geração de vídeo com Luma AI a partir de uma imagem de águia.
Resultado da geração de vídeo com Luma AI a partir de uma imagem de águia, mostrando maior realismo.

Avanços em Áudio e Voz com IA

A tecnologia de IA para áudio e voz também recebeu atualizações significativas, expandindo as possibilidades de criação e consumo de conteúdo.

ElevenLabs: Vozes Icônicas e Ferramenta de Isolamento

A ElevenLabs, conhecida por sua tecnologia de clonagem e geração de voz, trouxe duas grandes novidades. Primeiramente, seu Reader App, que transforma texto em áudio, agora inclui vozes de personalidades icônicas como Judy Garland, James Dean, Burt Reynolds e Sir Laurence Olivier. É importante notar, como ressaltado por Matt Wolfe, que a ElevenLabs obteve permissão dos respectivos espólios para usar essas vozes, garantindo a legalidade e o respeito aos direitos. Embora a qualidade do áudio dessas vozes históricas possa variar devido à época das gravações originais, a voz de Burt Reynolds, por ser mais recente, foi destacada como uma das mais nítidas. Para acessar o aplicativo, Matt Wolfe aconselha buscar por "ElevenLabs" na loja de aplicativos e verificar se o desenvolvedor é "ElevenLabs, Inc." para evitar aplicativos falsos.

Aplicativo ElevenLabs Reader exibindo a coleção de Vozes Icônicas.
Aplicativo ElevenLabs Reader exibindo a coleção de Vozes Icônicas.

Demonstração do Voice Isolator da ElevenLabs

Além disso, a ElevenLabs lançou uma nova ferramenta chamada Voice Isolator, capaz de extrair falas com clareza cristalina de qualquer áudio, removendo ruídos de fundo. Matt Wolfe compartilhou uma demonstração impressionante da ferramenta, mostrando sua eficácia em limpar áudios ruidosos, o que pode ser extremamente útil para filmes, podcasts e pós-produção de entrevistas.

Suno AI Lança Aplicativo Móvel

Para os entusiastas da criação musical com IA, o Suno AI agora possui um aplicativo móvel, inicialmente disponível para iOS. O aplicativo replica as funcionalidades da versão web, facilitando a criação de músicas diretamente do celular. Matt Wolfe recomenda verificar se o criador do app é "Suno, Inc." para garantir o download da versão oficial. Ele também compartilhou uma tentativa de gerar uma música temática para o 4 de julho usando o aplicativo.

Interface do aplicativo móvel do Suno AI.
Interface do aplicativo móvel do Suno AI para criação de músicas.

Inovações em Modelos 3D e LLMs

A geração de conteúdo 3D e os modelos de linguagem de grande escala (LLMs) continuam a ser áreas de intensa pesquisa e desenvolvimento.

Meta Apresenta o 3D Gen para Imagens 3D a Partir de Texto

A Meta divulgou pesquisas sobre seu novo modelo, o 3D Gen, que pode transformar prompts de texto em imagens 3D de alta fidelidade em menos de um minuto. Essa tecnologia tem potencial para acelerar o desenvolvimento de jogos e a criação de assets para vídeos 3D. Matt Wolfe exibiu uma demonstração do 3D Gen, mostrando modelos 3D variados, incluindo um pug metálico e um robô dançante, este último aparentemente integrado com animações do Mixamo.

Exemplos de modelos 3D gerados pelo 3D Gen da Meta.
Exemplos de modelos 3D gerados pelo 3D Gen da Meta, incluindo um pug metálico.

Kyutai Lança Moshi: Modelo de Voz Open Source

A Kyutai, um laboratório de pesquisa em IA de código aberto, lançou o Moshi, um novo modelo de voz que parece competir com as capacidades avançadas de voz do GPT-4o da OpenAI. O Moshi está disponível para experimentação em moshi.chat e, crucialmente, é open source. Isso significa que outras empresas podem construir sobre essa tecnologia. Matt Wolfe demonstrou a capacidade de resposta em tempo real do Moshi, embora tenha notado que a expressividade da voz ainda é um pouco robótica em comparação com modelos proprietários.

Interface do Moshi.chat, o modelo de voz da Kyutai.
Interface do Moshi.chat, o modelo de voz da Kyutai, durante uma demonstração.

InternLM 2.5: LLM Open Source com Janela de Contexto de 1 Milhão

Outra novidade no cenário open source é o InternLM 2.5, um LLM agora disponível no Hugging Face. O destaque deste modelo é sua impressionante janela de contexto de 1 milhão de tokens. Embora modelos como o Gemini do Google já ofereçam janelas de contexto de 2 milhões, ter uma opção open source com essa capacidade é um avanço significativo para a comunidade de desenvolvedores.

Atualizações em Navegadores e Ferramentas de Busca com IA

As ferramentas que usamos para interagir com a web também estão incorporando mais funcionalidades de IA.

Navegador Brave Adiciona Suporte a "Traga Seu Próprio Modelo" (BYOM)

O Navegador Brave atualizou seu assistente de IA, Leo AI, permitindo que os usuários utilizem seus próprios modelos de linguagem locais ou remotos. Isso oferece maior personalização e privacidade, pois os usuários podem conectar o Leo AI a modelos que rodam em suas próprias máquinas através de ferramentas como Ollama.

Perplexity AI Aprimora o Pro Search

O Perplexity AI, conhecido por sua abordagem de busca conversacional, atualizou seu recurso Pro Search. A nova versão introduz o raciocínio multi-step, permitindo que a IA compreenda melhor questões complexas que exigem planejamento, trabalhe através de objetivos passo a passo e sintetize respostas detalhadas com maior eficiência. Além disso, o Pro Search agora está mais apto para matemática e programação, graças à integração com o motor do WolframAlpha. Usuários gratuitos podem usar o Pro Search cinco vezes a cada quatro horas, enquanto assinantes Pro têm acesso quase ilimitado.

Notícias sobre Grandes Empresas de IA

As gigantes da tecnologia continuam a moldar o cenário da IA com parcerias, disputas legais e novas políticas.

Apple e a Observação no Conselho da OpenAI

Surgiram notícias de que a Apple poderá ter um assento de observador no conselho da OpenAI. Embora seja uma função sem direito a voto, similar à da Microsoft, isso aprofunda os laços entre as duas empresas, especialmente após o anúncio da integração do ChatGPT nos produtos Apple.

Novos Processos e Questões de Copyright Envolvendo a OpenAI

A OpenAI enfrenta mais um processo judicial, desta vez do Center for Investigative Reporting, que se junta a outras organizações de mídia como o The New York Times, alegando violação de direitos autorais. Eles acusam a OpenAI e a Microsoft de "aspirar" suas matérias para treinar seus modelos sem permissão ou compensação. Isso contrasta com os acordos de licenciamento que a OpenAI tem firmado com outras empresas de mídia, como Associated Press, Financial Times e Vox Media.

A Posição de Mustafa Suleyman sobre Conteúdo da Web

Nesse contexto, Mustafa Suleyman, CEO da Microsoft AI, fez comentários que geraram debate. Ele sugeriu que o "contrato social" para conteúdo na web aberta, desde os anos 90, implica em "uso justo" (fair use), onde qualquer um pode copiar, recriar e reproduzir. Ele distinguiu isso de sites que explicitamente proíbem o scraping para outros fins além da indexação. Matt Wolfe expressou ceticismo em relação a essa interpretação, questionando se o simples fato de publicar conteúdo online automaticamente o torna "freeware" para treinamento de modelos de IA.

Cloudflare Facilita o Bloqueio de Bots de IA

Para criadores de conteúdo preocupados com o scraping não autorizado de seus sites por bots de IA, a Cloudflare lançou uma solução. Usuários da Cloudflare, incluindo os do plano gratuito, agora podem ativar um botão para bloquear bots de IA conhecidos, oferecendo uma camada de proteção para seus dados.

Privacidade e Ética em IA

As discussões sobre privacidade e o uso ético da IA continuam a ser um tema central.

Figma e a Controvérsia sobre Uso de Dados e Design

A Figma, popular plataforma de design colaborativo, enfrentou críticas esta semana. Primeiro, uma de suas novas funcionalidades de design com IA gerou um design de aplicativo de previsão do tempo que era virtualmente idêntico ao aplicativo Weather da Apple. O CEO da Figma, Dylan Field, respondeu que estavam usando um LLM de prateleira e que o recurso foi pausado para investigação. Paralelamente, a Figma enviou um comunicado aos usuários informando que pretende usar o conteúdo dos clientes para aprimorar seus modelos de IA, mencionando que os dados são agregados e desidentificados para proteger a privacidade. No entanto, Matt Wolfe levanta a questão de que, embora prometam uma opção de opt-out, a configuração padrão será de opt-in, o que pode preocupar alguns usuários.

YouTube Permite Remoção de Conteúdo Gerado por IA que Simula Rosto ou Voz

O YouTube implementou um novo recurso que permite aos usuários solicitar a remoção de conteúdo gerado por IA que simule seu rosto ou voz. Anteriormente, a remoção exigia uma violação de direitos autorais, como o uso de conteúdo roubado. Agora, a simples simulação da aparência ou voz de alguém por IA pode ser motivo para solicitar a remoção.

Instagram Altera Rótulo "Feito com IA" para "Informações de IA"

O Instagram (propriedade da Meta) ajustou seu rótulo para conteúdo gerado ou editado com IA. Após reclamações de fotógrafos de que edições mínimas em ferramentas como o Photoshop estavam acionando o rótulo "Feito com IA", a plataforma mudou para "Informações de IA". Ao clicar neste novo rótulo, os usuários podem ver mais detalhes sobre como a IA foi utilizada na imagem.

Outras Novidades Relevantes

O mundo da IA trouxe ainda outras atualizações e anúncios interessantes.

Grok 2 da xAI Previsto para Agosto

Elon Musk, através de uma resposta a "Beth Jesos" (uma paródia de Jeff Bezos) na plataforma X, anunciou que o Grok 2, a próxima versão do LLM da xAI, será lançado em agosto e representará uma melhoria significativa, especialmente após um trabalho para "expurgar" dados de treinamento da internet.

Rumores sobre Parceria entre Apple e Google Gemini

Persistem os rumores de que a Apple poderá anunciar uma parceria com o Google Gemini no outono (primavera no hemisfério sul). Isso sugere que os usuários de produtos Apple poderão ter múltiplas opções de LLMs para alimentar os recursos de IA em seus dispositivos, não se limitando apenas à OpenAI.

WhatsApp Desenvolve Recurso de Stickers Personalizados com IA

Capturas de tela vazadas indicam que o WhatsApp está desenvolvendo um recurso que permitirá aos usuários criar stickers personalizados usando suas próprias imagens e IA, de forma similar ao que a Apple demonstrou para o iMessage.

Novos Óculos Inteligentes Competem com os Meta Ray-Ban

Os óculos inteligentes Meta Ray-Ban, que Matt Wolfe afirma usar diariamente, estão ganhando concorrência. Uma nova empresa está desenvolvendo os óculos Solos AirGo Vision, que possuem um design e funcionalidades semelhantes, incluindo câmeras e integração com LLMs como o ChatGPT-4o.

Open-TeleVision: Operação Remota de Robôs

Um projeto chamado Open-TeleVision demonstrou a capacidade de operar um robô imersivamente a até 3000 milhas de distância. Usando um Apple Vision Pro, um operador no MIT em Boston conseguiu controlar um robô na UCSD (Universidade da Califórnia em San Diego), realizando tarefas como pegar e organizar objetos em tempo real. Matt Wolfe expressou grande interesse por essa tecnologia e pela robótica em geral.

Esta semana, embora talvez mais calma em termos de anúncios bombásticos, certamente trouxe uma série de atualizações e desenvolvimentos que continuam a impulsionar o campo da Inteligência Artificial. Para se manter atualizado com as últimas ferramentas e notícias de IA, Matt Wolfe recomenda visitar seu site, FutureTools.io, e assinar a newsletter gratuita, que agora cobrirá não apenas IA, mas também outras tecnologias emergentes.