O cenário da inteligência artificial (IA) generativa testemunhou um avanço significativo com o surgimento do Vidu, um modelo de IA de conversão de texto em vídeo desenvolvido pela Shengshu Technology em colaboração com a Universidade de Tsinghua. Lançado em abril de 2024 no Fórum Zhongguancun em Pequim, o Vidu rapidamente se posicionou como um forte concorrente de modelos ocidentais renomados, como o Sora da OpenAI. Este artigo explora em profundidade o Vidu Studio AI, suas capacidades, tecnologia subjacente e o impacto potencial na indústria de criação de conteúdo.
Vidu é uma plataforma de IA que transforma descrições textuais e imagens estáticas em videoclipes dinâmicos e de alta qualidade. Inicialmente, o Vidu era capaz de gerar vídeos de até 16 segundos em resolução 1080p com um único clique. Versões mais recentes, como o Vidu 2.0, focaram em aumentar a velocidade de geração, produzindo clipes em menos de 10 segundos, e otimizar custos. Recentemente, foi anunciado que o Vidu pode gerar vídeos de até 32 segundos numa única instância. A plataforma se destaca pela sua capacidade de simular o mundo físico, gerar detalhes complexos em conformidade com as leis da física, como efeitos de luz e sombra realistas e expressões faciais delicadas. Além disso, o Vidu demonstra uma compreensão notável de elementos culturais chineses, conseguindo gerar imagens de figuras icônicas como pandas e "loongs" (dragões chineses).
A base tecnológica do Vidu reside em sua arquitetura de transformação visual auto-desenvolvida, denominada Universal Vision Transformer (U-ViT). Esta arquitetura inovadora integra dois modelos de IA de conversão de texto em vídeo: o Diffusion e o Transformer. A equipe de pesquisa do Vidu propôs a tecnologia central do U-ViT em setembro de 2022, antes mesmo da arquitetura DiT (Diversity in Transformation) do Sora ser divulgada. Essa fusão permite ao Vidu alcançar alta fidelidade visual e consistência temporal nos vídeos gerados.
O Vidu Studio AI oferece um leque de funcionalidades que o tornam uma ferramenta poderosa para criadores de conteúdo:
Desde o seu lançamento, o Vidu tem sido frequentemente comparado ao Sora da OpenAI. Enquanto o Sora pode gerar vídeos mais longos (até 60 segundos), o Vidu demonstrou capacidades impressionantes na geração de clipes de 16 segundos (e mais recentemente até 32 segundos) em alta definição. Analistas apontam que, embora o Sora possa ter uma ligeira vantagem na qualidade visual em alguns aspectos, o Vidu se destaca na consistência temporal, na representação de elementos culturais chineses e na criação de expressões faciais e movimentos realistas. A competição entre esses modelos impulsiona a inovação no campo da geração de vídeo por IA.
As capacidades do Vidu Studio AI abrem um vasto leque de aplicações em diversas indústrias:
Interessados em utilizar o Vidu podem se inscrever para uma lista de espera no site da Shengshu Technology. A plataforma oferece um plano gratuito com créditos limitados por mês, permitindo aos usuários criar vídeos curtos. Planos de assinatura com mais créditos e recursos também estão disponíveis. Recentemente, foi anunciado que o Vidu está disponível para uso global.
Em uma movimentação recente, a Shengshu Technology anunciou uma parceria estratégica com a Lenovo. Essa colaboração resultará na oferta de PCs da Lenovo que virão com a solução de vídeo generativo do Vidu, otimizando a produção de efeitos visuais de alta qualidade através de prompts de texto ou imagem. Esta parceria visa atender à crescente demanda por PCs habilitados para IA, capazes de lidar com as exigências de processamento de plataformas de vídeo generativo.
O Vidu Studio AI representa um marco significativo no avanço da inteligência artificial na China e globalmente. Com sua arquitetura U-ViT inovadora e a contínua evolução de suas capacidades, como demonstrado pelas atualizações Vidu 2.0 e Vidu Q1, a plataforma está bem posicionada para revolucionar a forma como o conteúdo de vídeo é criado e consumido. À medida que a Shengshu Technology e a Universidade de Tsinghua continuam a refinar e aprimorar o Vidu, espera-se que a ferramenta se torne ainda mais poderosa e acessível, democratizando a produção de vídeo de alta qualidade para criadores em todo o mundo. A competição acirrada com outros modelos de IA, como o Sora, só tende a acelerar o ritmo da inovação, prometendo um futuro excitante para a geração de vídeo impulsionada por inteligência artificial.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.