Inteligência Artificial

Revoluções na Inteligência Artificial: De Clones de Voz a Robôs Kung Fu e Orquestras Virtuais

Descubra as últimas revoluções na Inteligência Artificial: clonagem de voz com Spark-TTS, IA compositora NotaGen, o potente QwQ-32B da Alibaba e mais.

Imported Author

25 Mai 2025 • 4 min read

A Inteligência Artificial (IA) avança em um ritmo alucinante, e esta semana foi particularmente recheada de novidades impressionantes que prometem transformar diversas áreas, desde a criação de conteúdo até a automação industrial. Modelos de código aberto superando gigantes, novas ferramentas de clonagem de voz com realismo assustador, IA capaz de compor para orquestras inteiras e robôs humanoides com habilidades inacreditáveis são apenas alguns dos destaques.

Avanços Surpreendentes em Modelos de Linguagem e Geração de Mídia com Inteligência Artificial

A velocidade com que a Inteligência Artificial evolui é notável, especialmente no campo dos modelos de linguagem e na geração de conteúdo multimídia. Esta semana, testemunhamos lançamentos que redefinem o que considerávamos possível, com ferramentas open-source demonstrando capacidades comparáveis ou até superiores a modelos proprietários.

Spark-TTS: A Nova Fronteira da Clonagem de Voz com Inteligência Artificial

Uma das novidades mais impactantes é o Spark-TTS, um novo gerador de texto para fala (TTS) que demonstra uma capacidade de clonagem de voz incrivelmente realista e expressiva. Com apenas alguns segundos de áudio de referência, o Spark-TTS consegue replicar a voz de uma pessoa, permitindo que ela diga qualquer coisa, inclusive em diferentes idiomas, como chinês, mantendo o timbre original. Os exemplos divulgados, que incluem a clonagem da voz de personagens como Rick Sanchez de Rick and Morty e Furina de Genshin Impact, além de figuras públicas como Donald Trump, mostram a naturalidade e a precisão do sistema, que captura nuances como respiração e ênfase. O projeto já disponibilizou seus modelos no Hugging Face e o código no GitHub, tornando-o acessível para a comunidade.

HunyuanVideo-I2V: Geração de Vídeo por Inteligência Artificial Open Source

Outro lançamento significativo foi o modelo de imagem para vídeo da Hunyuan (Tencent), o HunyuanVideo-I2V. Esta ferramenta, que também é open-source, permite a criação de vídeos a partir de imagens estáticas, oferecendo um controle considerável sobre o resultado. Embora o repositório oficial no GitHub mencione a necessidade de GPUs com alta capacidade de VRAM (60-80GB), já existem forks, como o ComfyUI-HunyuanVideoWrapper, que permitem rodar o modelo com menos recursos, como 12GB de VRAM, tornando-o mais acessível para um público maior.

NotaGen: Inteligência Artificial Compondo para Orquestras e Corais

No campo da música, o NotaGen surge como uma ferramenta de Inteligência Artificial capaz de compor partituras musicais complexas para orquestras inteiras e até corais. O sistema foi pré-treinado com 1.6 milhões de peças musicais e, em seguida, ajustado com quase 9 mil partituras clássicas de alta qualidade, cobrindo 152 compositores. O processo de treinamento ainda incluiu uma etapa de aprendizado por reforço, utilizando uma técnica especial chamada CLaMP-DPO para refinar a musicalidade e a controlabilidade das composições. Os modelos e o código do NotaGen também foram disponibilizados no Hugging Face e GitHub.

Novos Modelos de Linguagem (LLMs) Desafiam o Status Quo da Inteligência Artificial

A competição no desenvolvimento de Modelos de Linguagem de Grande Escala (LLMs) está acirrada, com novos players demonstrando capacidades impressionantes e, em muitos casos, disponibilizando suas inovações de forma aberta.

QwQ-32B: A Inteligência Artificial da Alibaba que Supera Expectativas

A Alibaba lançou o QwQ-32B, um modelo com 32 bilhões de parâmetros que, apesar do tamanho relativamente pequeno, demonstra um desempenho comparável ou superior ao DeepSeek-R1 (com 671 bilhões de parâmetros) em diversos benchmarks. O QwQ-32B utiliza aprendizado por reforço, especificamente para tarefas de matemática e codificação, e é open-weight, disponível no Hugging Face e ModelScope sob a licença Apache 2.0.

Babel: Inteligência Artificial Multilíngue da Alibaba

Além do QwQ-32B, a Alibaba também apresentou o Babel, um LLM multilíngue que cobre as 25 línguas mais faladas globalmente, atendendo a mais de 90% da população mundial. Este modelo possui duas variantes, Babel-9B e Babel-83B, e destaca-se por sua capacidade de lidar com idiomas menos priorizados por outros LLMs, como Hindi, Bengali e Urdu. Os modelos também estão disponíveis no Hugging Face.

Outras Ferramentas e Desenvolvimentos Notáveis em Inteligência Artificial

A semana também trouxe novidades em geração de imagens personalizadas, controle preciso de câmera em vídeos e avanços em robótica.

Diffusion Self-Distillation para Geração de Imagens Personalizadas

O Diffusion Self-Distillation é uma técnica que permite a criação de imagens de objetos ou personagens específicos em novos contextos, preservando sua identidade. É uma ferramenta poderosa para fotografia de produtos e criação de storyboards, e o código e modelos já estão disponíveis no GitHub e Hugging Face.

GEN3C: Geração de Vídeo 3D com Controle de Câmera da NVIDIA

A NVIDIA apresentou o GEN3C, uma IA que cria vídeos com controle preciso da trajetória da câmera a partir de uma ou múltiplas imagens, ou até mesmo de um vídeo existente. A ferramenta primeiro transforma a entrada em uma cena 3D e, em seguida, utiliza um modelo de difusão de vídeo para gerar o clipe final, alinhado com as poses de câmera desejadas.

Aya Vision: Modelo de Visão Open-Weights da Cohere

A Cohere lançou o Aya Vision, um modelo de visão open-weights que se destaca pela sua capacidade multilíngue e multimodal. Disponível em versões de 8 e 32 bilhões de parâmetros, o Aya Vision demonstrou um desempenho superior a outros modelos de tamanho similar em benchmarks de visão. Os modelos estão disponíveis no Hugging Face.

Avanços Impressionantes em Robôs Humanoides

No campo da robótica, a Unitree continua a impressionar com demonstrações do seu robô humanoide G1 realizando movimentos de Kung Fu e outras acrobacias. A Reflex Robotics, uma startup de Nova York, também mostrou seus robôs realizando tarefas de logística em armazéns, como organizar itens e levantar sacos de arroz de 50 libras com notável velocidade e suavidade.

A Corrida da Inteligência Artificial: OpenAI vs. xAI

A competição entre a OpenAI e a xAI de Elon Musk continua acirrada. Após o lançamento do GPT-4.5 pela OpenAI, a xAI respondeu rapidamente com uma nova versão do Grok-3, que, de acordo com o Chatbot Arena, superou o modelo da OpenAI por uma pequena margem, assumindo a liderança no ranking de preferência dos usuários. Essa dinâmica mostra o quão rápido o campo da Inteligência Artificial está evoluindo.

Esta semana demonstrou vividamente que a Inteligência Artificial não para de evoluir, com inovações surgindo em todas as frentes. A crescente disponibilidade de modelos open-source está democratizando o acesso a tecnologias de ponta, prometendo um futuro ainda mais empolgante para a IA.

ChatLLM da Abacus.AI

Vale mencionar também a ferramenta ChatLLM da Abacus.AI, que integra diversos modelos de linguagem de ponta, como Claude 3.7, o3 Mini High e DeepSeek R1, em uma única plataforma. Com funcionalidades como o RouteLLM, que seleciona automaticamente o melhor LLM para a sua tarefa, e a capacidade de gerar imagens e vídeos, o ChatLLM se apresenta como uma solução poderosa e versátil.