Avanços Insanos em IA: GPT-5, Vídeo, Música e Mais!
Avanços Insanos em IA: GPT-5, Reiluminação de Vídeo, Música e Mais!
A inteligência artificial nunca dorme, e as últimas semanas têm sido absolutamente insanas em termos de inovação. Temos novas IAs capazes de reiluminar fotos e vídeos, geradores de vídeo de última geração, IAs especializadas em analisar raios-X e até mesmo projetar olhos virtuais. Além disso, surgiram geradores de música open-source, IAs que rodam offline em seu celular para criar vídeos, e informações quentíssimas sobre o OpenAI GPT-4.5 e o tão aguardado GPT-5. Vamos mergulhar nessas novidades!
Light-A-Video: Reiluminação de Vídeo Sem Treinamento por Fusão Progressiva de Luz
Uma das ferramentas mais impressionantes é o Light-A-Video. Esta tecnologia permite alterar drasticamente a iluminação ou o fundo de um vídeo existente sem a necessidade de refilmagem. Utilizando uma técnica chamada Fusão Progressiva de Luz, o Light-A-Video ajusta as cores e a atmosfera do vídeo original de acordo com o novo cenário de iluminação desejado, que pode ser descrito através de um prompt de texto.
Por exemplo, um vídeo gravado durante o dia pode ser transformado para parecer que foi filmado ao pôr do sol, com a IA ajustando as cores e sombras de forma realista. A ferramenta demonstra uma capacidade notável de manter os detalhes do vídeo original, modificando principalmente a iluminação. É possível ver exemplos onde a iluminação de retratos, animais e paisagens é alterada para criar diferentes moods, como luz de janela, neon ou crepúsculo.
Como Funciona o Light-A-Video?
O processo do Light-A-Video, conforme detalhado em seu repositório no GitHub, começa dividindo o vídeo em frames individuais. Ruído é adicionado a cada frame, que então passa por um Modelo de Difusão de Vídeo. O sistema utiliza modelos de código aberto como o Realistic Vision V5.1 e o modelo de reiluminação IC-Light. Um componente chave é a Atenção de Luz Consistente (CLA) e a Fusão Progressiva de Luz, que compara e mescla os frames originais com os novos frames gerados, garantindo consistência e suavidade.
Reiluminação de Primeiro Plano e Geração de Fundo
Além da reiluminação completa da cena, o Light-A-Video pode separar o objeto em primeiro plano e gerar um fundo completamente novo, aplicando a iluminação desejada. Isso abre portas para comerciais de produtos altamente customizáveis e criativos. O código já está disponível, e uma demonstração com interface Grado está planejada.
Magic 1-For-1: Geração Rápida de Vídeos de Um Minuto
Outra novidade empolgante é o Magic 1-For-1, um gerador de vídeo capaz de criar clipes de até um minuto em menos de um minuto. Essa velocidade é alcançada através de uma técnica chamada Destilação por Passos (Step Distillation) e uma arquitetura que primeiro gera uma imagem a partir do texto (text-to-image) e depois um vídeo a partir dessa imagem (image-to-video). O modelo base utilizado é o HunyuanVideo da Tencent, que é open-source.
Os exemplos demonstram alta qualidade e consistência, desde animações de dragões cuspindo fogo, cenas realistas de humanos, até time-lapses e animações no estilo Disney/Pixar. A capacidade de gerar vídeos detalhados e coerentes rapidamente é um grande avanço. O código do Magic 1-For-1 também já foi liberado.
MedRAX: Agente de Raciocínio Médico para Raios-X de Tórax
No campo da saúde, o MedRAX surge como um assistente de IA com visão, projetado para analisar imagens de raios-X de tórax. Essa ferramenta pode ajudar médicos com diagnósticos e pesquisa médica. O MedRAX utiliza o modelo GPT-4o com capacidades de visão como seu LLM de base e foi treinado com o benchmark ChestAgentBench. De acordo com os desenvolvedores, ele supera outros modelos de visão em diversas categorias de análise de raios-X. O código e o conjunto de dados do MedRAX estão disponíveis sob a licença Apache 2.0, incentivando o desenvolvimento e a pesquisa na área.
E se os Olhos...? Uma Simulação da Evolução da Visão
Um projeto fascinante chamado "What if Eye...?" está recriando computacionalmente a explosão cambriana da visão. A simulação começa com uma única célula detectora de luz e permite que "criaturas digitais" evoluam olhos a partir do zero, enfrentando desafios como navegar pelo mundo, discernir comida de veneno e evadir predadores. Pesquisadores da Universidade de Tübingen, Alemanha, e da Universidade do Texas em Austin estão por trás desta iniciativa. Eles descobriram que tarefas de orientação, como navegação em labirintos, levam à evolução de olhos compostos distribuídos (semelhantes aos de moscas), enquanto tarefas de discriminação de objetos resultam em olhos do tipo câmera de alta acuidade (semelhantes aos humanos e falcões). Este projeto oferece insights valiosos sobre o desenvolvimento da visão natural e pode inspirar o design de sistemas de visão de IA mais eficientes.
Perplexity Lança Pesquisa Profunda (Deep Research)
O Perplexity AI introduziu um novo recurso chamado Pesquisa Profunda (Deep Research). Diferente de uma busca simples, ao solicitar uma Pesquisa Profunda, a IA realiza dezenas de buscas, lê centenas de fontes e analisa o material para entregar um relatório abrangente sobre o tópico. Este recurso é excelente para tarefas complexas que exigem pesquisa aprofundada, desde finanças e marketing até pesquisa de produtos. A Pesquisa Profunda está disponível gratuitamente com um número limitado de usos por dia, enquanto os assinantes Pro têm acesso ilimitado. A ferramenta demonstra um processo de pesquisa iterativo, buscando informações, identificando lacunas e refinando a busca para fornecer respostas detalhadas e bem fundamentadas.
Goku: Modelos de Fundação Generativos de Vídeo Baseados em Fluxo pela ByteDance
A ByteDance, em colaboração com a Universidade de Hong Kong (HKU), apresentou o Goku, uma família de modelos de fundação para geração de vídeo baseados em fluxo. O Goku se destaca na criação de avatares de marketing hiper-realistas a partir de texto, conversão de imagens de produtos em videoclipes cativantes e otimização de cenários publicitários. Os exemplos mostram uma qualidade impressionante e realismo, especialmente em vídeos de influenciadores gerados por IA e demonstrações de produtos. O Goku-T2V alcançou uma pontuação impressionante de 84.85 no VBench, superando outros modelos de texto para vídeo líderes de mercado.
Atualizações do Roteiro da OpenAI: GPT-4.5 e GPT-5
Sam Altman, CEO da OpenAI, forneceu atualizações sobre o roteiro para o GPT-4.5 e GPT-5. Ele afirmou que o GPT-4.5, internamente chamado de Orion, será o último modelo "não-cadeia-de-pensamento". O objetivo principal é unificar os modelos da série O (modelos de raciocínio) e os modelos da série GPT (modelos de linguagem mais diretos) criando sistemas que possam usar todas as ferramentas, saber quando pensar por mais tempo ou não, e serem úteis para uma vasta gama de tarefas. O GPT-5 será lançado como um desses sistemas, integrando muitas das tecnologias da OpenAI, incluindo o O3. Crucialmente, Altman mencionou que o nível gratuito do ChatGPT terá acesso ilimitado ao GPT-5 na configuração de inteligência padrão. Isso representa uma mudança significativa, tornando o modelo mais avançado acessível a todos.
Outras Ferramentas e Notícias de IA
Além dos destaques, outras ferramentas e notícias importantes surgiram:
- InspireMusic da Alibaba: Um novo gerador de música AI de código aberto do Tongyi Lab da Alibaba. Ele pode gerar música a partir de texto ou prompts de áudio, suportando vários gêneros e estruturas musicais. O modelo "long" pode gerar áudio com mais de 5 minutos. O código e os modelos estão disponíveis.
- On-device Sora: Um projeto que permite a geração de vídeo baseada em difusão de texto para vídeo diretamente em dispositivos móveis, como o iPhone 15 Pro. Utiliza uma alternativa de código aberto chamada Open-Sora, e não o Sora da OpenAI. A resolução máxima é de 256x256 pixels, com alguma perda de qualidade devido às otimizações para rodar localmente. O código está disponível no GitHub.
- Enhance-A-Video: Uma ferramenta gratuita e de código aberto para melhorar a qualidade de vídeos gerados por IA. Ela adiciona detalhes e corrige problemas, tornando os vídeos mais suaves e conectados. O código está no GitHub.
- CineMaster: Uma estrutura 3D-aware e controlável para geração cinematográfica de texto para vídeo. Ele compreende e trabalha com o espaço 3D, permitindo controle sobre o movimento de objetos e da câmera.
- Unitree G1 Humanoid Robot: A Unitree, conhecida por seus robôs ágeis, demonstrou o G1 Humanoid Robot dançando com uma fluidez impressionante, mostrando avanços em seus algoritmos de controle motor.
O ritmo da inovação em IA continua acelerado, prometendo transformar ainda mais diversas áreas da nossa vida e trabalho.