Inteligência Artificial

Avanços Incríveis em IA: Ferramentas que Transformam Fotos em 3D, Editam Vídeos e Robôs Mais Ágeis

Xavier

25 Mai 2025 • 5 min read

A inteligência artificial (IA) não para de evoluir, e esta semana foi particularmente movimentada, com lançamentos que prometem revolucionar desde a criação de conteúdo 3D e edição de vídeo até a robótica humanoide. Ferramentas capazes de transformar uma simples foto em uma cena 3D super-realista, gerar vídeos longos com consistência e editar imagens preservando detalhes minuciosos são apenas alguns dos destaques.

Revolucionando a Criação 3D e Edição de Imagens com IA

A capacidade da IA de entender e manipular conteúdo visual atingiu novos patamares, oferecendo aos criadores e desenvolvedores ferramentas cada vez mais poderosas e acessíveis.

MIDI: De Fotos a Cenas 3D Realistas em Segundos com Inteligência Artificial

Uma das novidades mais impressionantes é o MIDI (Multi-Instance Diffusion for Single Image to 3D Scene Generation). Esta IA consegue converter uma única imagem 2D em uma cena 3D tridimensional complexa e com alta fidelidade. O processo, conforme detalhado na página do projeto, envolve a segmentação da imagem em múltiplos objetos individuais, gerando instâncias 3D para cada um e, em seguida, compondo-os de forma realista na cena 3D. O mais notável é a velocidade: o MIDI pode processar e gerar uma cena em cerca de 40 segundos. Demonstrações mostram resultados incrivelmente realistas, como a recriação de um ambiente com cães, plantas e móveis, onde até mesmo detalhes não visíveis na foto original são inferidos e renderizados com precisão. O código do projeto MIDI já está disponível no GitHub, permitindo que desenvolvedores explorem e utilizem esta tecnologia.

SANA-Sprint da Nvidia: Geração de Imagens em Tempo Recorde com Inteligência Artificial

A Nvidia continua a ser uma força motriz na IA, e esta semana apresentou o SANA-Sprint, um novo modelo de geração de imagens capaz de criar fotografias em menos de um segundo – especificamente, com uma latência de apenas 0.12 segundos em uma GPU H100. Este modelo, que também é open-source, demonstra um avanço significativo na velocidade de geração, permitindo a criação de centenas de imagens em questão de segundos, com alta qualidade e detalhamento, como visto em exemplos que variam de retratos a paisagens complexas.

Tight Inversion: Edição de Imagens Preservando Detalhes com Inteligência Artificial

Outra ferramenta de destaque é a Tight Inversion, projetada para edição de imagens com IA, mantendo os detalhes originais da imagem intactos. Utilizando modelos como o Flux em conjunto com o PuLID, ou o SDXL com IP-Adapter, a Tight Inversion permite modificações significativas – como transformar uma pessoa em um palhaço ou adicionar uma barba e chapéu a um retrato de Yann LeCun – sem perder a identidade facial ou as características essenciais da imagem original. Esta capacidade de edição precisa é crucial para aplicações profissionais e criativas. Demonstrações interativas já estão disponíveis para o público.

Gemini 2.0 Flash e Gemma 3 do Google: Novas Fronteiras na Geração e Edição Multimodal com Inteligência Artificial

O Google também trouxe novidades importantes com o lançamento do Gemma 3, um modelo de IA open-source descrito como o mais capaz para rodar em uma única GPU ou TPU. O Gemma 3 se destaca por seu suporte a mais de 140 idiomas e suas capacidades de raciocínio visual, permitindo analisar imagens e vídeos. Além disso, o Google AI Studio agora permite experimentar a geração e edição nativa de imagens com o Gemini 2.0 Flash, uma ferramenta que promete facilitar a criação de conteúdo visual diretamente na plataforma.

MeshPad: Da Ideia ao Modelo 3D com Desenhos Simples usando Inteligência Artificial

Para quem trabalha com modelagem 3D, o MeshPad surge como uma solução inovadora. Esta IA permite a criação e edição de modelos 3D a partir de esboços simples. O usuário pode desenhar e modificar partes do modelo, e o MeshPad transforma esses traços em malhas 3D. Demonstrações mostram a criação interativa de objetos como cadeiras e luminárias, simplesmente adicionando ou removendo elementos no esboço. O código do MeshPad também será disponibilizado em breve, o que é uma ótima notícia para a comunidade de desenvolvimento 3D.

Avanços Surpreendentes em Vídeo Gerado e Editado por IA

A geração e edição de vídeo com IA também viu progressos notáveis, com ferramentas que oferecem desde a criação de narrativas longas até efeitos visuais complexos e controle refinado sobre a câmera.

VACE da Alibaba: A Suíte Completa para Criação e Edição de Vídeos com Inteligência Artificial

O Alibaba revelou o VACE, uma plataforma all-in-one extremamente poderosa para criação e edição de vídeos. O VACE é capaz de gerar vídeos a partir de prompts, utilizar vídeos de referência para capturar movimento, substituir personagens por imagens de referência e até mesmo expandir o quadro de um vídeo (outpainting), como demonstrado ao adicionar uma orquestra inteira ao fundo de um vídeo de uma violinista. O modelo e um workflow para ComfyUI estão previstos para serem lançados em breve, o que, segundo especialistas em produção de vídeo, poderá democratizar ainda mais a criação de conteúdo audiovisual de alta qualidade.

TrajectoryCrafter: Redefinindo o Movimento da Câmera em Vídeos Existentes com Inteligência Artificial

O TrajectoryCrafter é uma IA que permite alterar a trajetória da câmera em vídeos já existentes. Com ele, é possível aplicar movimentos como panorâmica, órbita e zoom, transformando a perspectiva de qualquer vídeo. Um exemplo impressionante mostra um vídeo de uma avó na cozinha, onde a IA recria a cena com diferentes movimentos de câmera, inclusive revelando partes do ambiente que não estavam no vídeo original. O código e uma demonstração online estão disponíveis, embora seja necessário um hardware robusto, com pelo menos 28GB de VRAM, para rodar a ferramenta localmente.

Ajuste de Contexto Longo: Criando Vídeos Extensos e Coerentes com Inteligência Artificial

Uma área de pesquisa ativa é o "Long Context Tuning for Video Generation", que visa criar vídeos longos e com múltiplas cenas consistentes. A técnica envolve a combinação de diversos clipes curtos em uma narrativa coesa, mantendo a aparência dos personagens e o estilo visual ao longo de toda a duração do vídeo. Um exemplo demonstra a criação de uma história de mais de 4 minutos sobre um menino e uma menina perdidos na floresta, ilustrando o potencial para produções cinematográficas mais longas geradas por IA.

LORAs da Remade-AI: Efeitos Visuais Acessíveis para Edição de Vídeo com Inteligência Artificial

A Remade-AI lançou uma coleção de LORAs (Low-Rank Adaptation) open-source para o modelo de vídeo Wan 2.1 (especificamente a versão de 480p), que permitem aplicar diversos efeitos visuais (VFX) em vídeos. Esses efeitos incluem "esmagar" objetos como se fossem de massinha, rotacioná-los, inflá-los como balões, transformá-los em bolo ("cakeify"), e muito mais. Esses LORAs podem ser integrados a workflows existentes, como os do ComfyUI, oferecendo novas possibilidades criativas para editores de vídeo.

Robôs Humanoides e o Futuro da Interação

Os robôs humanoides continuam a nos surpreender com suas capacidades cada vez mais sofisticadas, aproximando-se de movimentos e interações antes restritos aos humanos.

Unitree e Engine AI: Demonstrações Impressionantes de Robôs Humanoides com Inteligência Artificial

Empresas como Unitree Robotics e Engine AI têm demonstrado avanços notáveis. Vimos robôs da Unitree realizando danças e movimentos de kung-fu com agilidade impressionante. Já a Engine AI apresentou um robô capaz de correr em alta velocidade, superando um humano, e outro realizando um mortal para frente (front flip) – o primeiro robô humanoide a conseguir tal feito. Esses desenvolvimentos indicam um futuro onde robôs poderão realizar tarefas físicas complexas com grande destreza.

Considerações sobre a Evolução da Inteligência Artificial

A velocidade com que novas ferramentas e modelos de IA estão surgindo é espantosa. A cada semana, somos apresentados a capacidades que antes pareciam ficção científica. A democratização do acesso a essas tecnologias, com muitos projetos sendo disponibilizados como open-source, acelera ainda mais essa evolução. Como aponta um relatório recente da Universidade de Stanford sobre o índice de IA, o investimento e o desenvolvimento em inteligência artificial continuam crescendo exponencialmente, impactando todas as áreas do conhecimento e da indústria.

Esses avanços trazem consigo um enorme potencial, mas também levantam questões importantes sobre ética, uso responsável e o futuro do trabalho. É fundamental que a sociedade acompanhe de perto essas transformações, fomentando o debate e a criação de diretrizes que garantam que a IA seja utilizada para o benefício de todos.

Esta semana foi, sem dúvida, mais uma prova do dinamismo da área de inteligência artificial. As ferramentas e modelos apresentados abrem um leque de novas possibilidades para criadores de conteúdo, desenvolvedores e pesquisadores, e mal podemos esperar para ver o que as próximas semanas nos reservam.