A inteligência artificial generativa tem nos surpreendido com avanços cada vez mais rápidos, especialmente na criação de imagens a partir de texto. Ferramentas como Midjourney e Stable Diffusion já demonstram um nível de realismo e criatividade impressionantes. No entanto, a conversão de texto em vídeo sempre pareceu um passo mais distante, com demonstrações esporádicas de gigantes como Meta e Google, mas poucas ferramentas acessíveis ao público. Esse cenário acaba de mudar com o lançamento do ModelScope Text-to-Video, o primeiro modelo de difusão de código aberto para geração de vídeo a partir de texto com 1.7 bilhão de parâmetros.
Até recentemente, a geração de vídeo por IA era mais um conceito promissor do que uma realidade palpável para a maioria dos usuários. Vimos demonstrações de empresas como Meta e Google, mostrando o potencial futuro dessa tecnologia, mas sem acesso direto para experimentação. Paralelamente, surgiram ferramentas interessantes como o Deforum, Plazma Punk e Decoherence (baseado no Deforum), que permitem criar animações e efeitos visuais impressionantes através da interpolação de imagens, mas ainda não representavam uma verdadeira conversão direta de texto para vídeo como a que vemos em geradores de imagem.
A chegada do ModelScope Text-to-Video Synthesis, disponibilizado na plataforma Hugging Face, marca um ponto de inflexão. Este modelo de código aberto, conforme destacado em uma postagem no subreddit r/StableDiffusion, permite que qualquer pessoa com acesso à internet possa, teoricamente, transformar suas ideias textuais em pequenos clipes de vídeo.
Os exemplos iniciais divulgados, e os que usuários como Victor M (Chefe de Design de Produto da Hugging Face) têm compartilhado, demonstram uma gama variada de possibilidades:
Esses exemplos, embora curtos (geralmente 2 segundos), já indicam o potencial criativo da ferramenta.
Apesar do entusiasmo, é importante notar algumas limitações atuais do ModelScope. Uma observação recorrente é a presença de marcas d'água da Shutterstock em muitos dos vídeos gerados. Isso sugere fortemente que o modelo foi treinado com uma grande quantidade de vídeos provenientes deste banco de imagens, o que pode levantar questões sobre direitos autorais e a originalidade do conteúdo em alguns casos.
Além disso, a duração dos clipes é, por enquanto, bastante limitada, geralmente a 2 segundos. A qualidade e a coerência das animações podem variar bastante dependendo da complexidade do prompt. No entanto, mesmo com essas ressalvas, a tecnologia é promissora.
Você pode experimentar o ModelScope diretamente no espaço dedicado na Hugging Face: modelscope-text-to-video-synthesis. O processo é simples:
Devido à alta demanda, pode haver um tempo de espera considerável ou até mesmo erros de sobrecarga do servidor. Uma alternativa, para quem deseja mais agilidade e não se importa com um pequeno custo, é duplicar o espaço. Isso cria uma instância privada do modelo, que geralmente responde mais rápido, mas requer um cartão de crédito cadastrado na Hugging Face para cobrir os custos de uso do hardware (GPU), que podem ser de alguns centavos a poucos dólares por hora de uso, dependendo da configuração escolhida.
Ao duplicar, é recomendável escolher uma configuração de hardware robusta, como as opções T4, para garantir o funcionamento adequado do modelo. Configurações gratuitas ou muito básicas podem não ser suficientes.
Para entender o potencial da IA de texto para vídeo, basta olharmos para a evolução da IA de texto para imagem. Modelos como o DALL-E 1, em seus primórdios (final de 2021, início de 2022), geravam imagens que hoje parecem rudimentares quando comparadas com a qualidade fotorrealista e artística de um Midjourney v5. Em menos de um ano, o salto de qualidade foi exponencial.
Se aplicarmos essa mesma trajetória de desenvolvimento à geração de vídeo, é fascinante imaginar onde estaremos em um ano. O ModelScope, apesar de suas limitações atuais, é um marco importante, representando o "dia um" de uma nova era na criação de conteúdo audiovisual por IA.
O ModelScope Text-to-Video é uma tecnologia emergente, ainda em seus estágios iniciais, mas com um potencial transformador. A capacidade de gerar vídeos a partir de simples descrições textuais abre um leque de possibilidades para criadores de conteúdo, artistas, profissionais de marketing e entusiastas da tecnologia. Embora os resultados atuais possam parecer modestos ou apresentar imperfeições, a velocidade com que a IA generativa evolui sugere que em breve veremos ferramentas de texto para vídeo com qualidade e complexidade surpreendentes.
Para se manter atualizado com as últimas ferramentas de IA, incluindo as de geração de vídeo, sites como o FutureTools.io, que curadoria e organiza diversas dessas tecnologias, podem ser um excelente recurso.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.