A criação de vídeos com inteligência artificial (IA) avançou enormemente, permitindo que contadores de histórias e criadores de conteúdo deem vida às suas visões de maneiras antes inimagináveis. No entanto, um dos maiores obstáculos enfrentados é manter a consistência dos personagens em múltiplas cenas. É frustrante quando, após configurar cuidadosamente um personagem, ele aparece completamente diferente no clipe seguinte. Ferramentas populares de geração de imagem como Midjourney, DALL-E e Leonardo.Ai facilitaram a manutenção da consistência para um único personagem, mas a complexidade aumenta exponencialmente ao introduzir múltiplos personagens interagindo em diferentes cenários. Este artigo, inspirado nas técnicas demonstradas no canal aiTrends, explora um método detalhado para superar esse desafio, focando no uso do ChatGPT para engenharia de prompts e da ferramenta Hailuo AI da Minimax para geração de vídeo.
Manter a aparência e características dos personagens ao longo de uma narrativa visual é crucial para a imersão do espectador. O método a seguir detalha como alcançar essa consistência.
O primeiro passo é ter uma história clara. Utilize o ChatGPT para gerar um roteiro ou uma narrativa curta. É fundamental nomear seus personagens desde o início, como por exemplo, "George" e "Anna", para facilitar a referência e a consistência nas etapas subsequentes. Uma história bem definida com personagens nomeados serve como a espinha dorsal para a criação visual.
Com a história em mãos, o próximo passo é criar descrições ricas e detalhadas para cada personagem. Novamente, o ChatGPT pode ser um aliado poderoso. Solicite descrições que cubram aspectos como:
Quanto mais detalhada a descrição, maior a probabilidade de a IA gerar visuais consistentes. É recomendável manter essas descrições organizadas, talvez em uma aba separada do ChatGPT, para fácil acesso.
Esta é uma etapa crucial. Você precisa instruir o ChatGPT a lembrar e utilizar consistentemente as descrições de personagens criadas anteriormente ao gerar os prompts para cada cena do seu vídeo. Isso pode ser feito através de um "master prompt" ou comando inicial que estabelece as regras para o ChatGPT, informando-o que, sempre que um personagem específico for mencionado na cena, sua descrição detalhada deve ser incorporada ao prompt visual. Por exemplo, você pode instruir: "Em qualquer cena onde George aparecer, adicione estes detalhes ao prompt: [descrição detalhada de George aqui]". Repita o processo para cada personagem principal. Isso garante que o ChatGPT não invente novas aparências a cada cena.
Com os prompts de cena enriquecidos com as descrições consistentes dos personagens, é hora de gerar o vídeo. A ferramenta Hailuo AI, desenvolvida pela Minimax (identificada pela marca d'água "hailuo AI x MINIMAX" nos exemplos do vídeo), é uma opção de texto-para-vídeo que, no momento da demonstração original, era gratuita. Embora o site possa estar em chinês, navegadores modernos geralmente oferecem tradução automática. Uma dica importante ao usar o Hailuo AI é desmarcar qualquer opção de "otimização de palavras do prompt" ou similar, para garantir que a ferramenta utilize seu prompt cuidadosamente elaborado sem modificações indesejadas. Ao inserir o prompt da cena, que agora inclui as descrições detalhadas de George e Anna, o Hailuo AI é capaz de gerar clipes onde os personagens mantêm uma aparência notavelmente consistente, como demonstrado com os personagens infantis George e Anna explorando uma floresta.
Os mesmos princípios de engenharia de prompt detalhados acima podem ser aplicados a geradores de imagem como DALL-E e Midjourney. Ao fornecer descrições consistentes dos personagens dentro dos prompts para cada imagem, você aumenta a chance de manter a semelhança visual entre elas. No entanto, é importante notar que, mesmo com prompts detalhados, podem ocorrer pequenas variações, especialmente em roupas e penteados, dependendo da complexidade e da interpretação da IA. A experimentação com a especificidade das descrições de vestuário e acessórios pode ajudar a mitigar essas inconsistências.
Se você optar por gerar imagens estáticas consistentes, o próximo passo é animá-las. Ferramentas de imagem-para-vídeo como Luma Dream Machine e a mais recente Runway ML Gen-3 Alpha são excelentes opções para transformar suas imagens em clipes animados. Basta fazer o upload da imagem gerada e utilizar as funcionalidades da plataforma para adicionar movimento.
A técnica de utilizar o ChatGPT para criar descrições detalhadas de personagens e prompts de cena específicos, e depois alimentar esses prompts em ferramentas de texto-para-vídeo como o Hailuo AI da Minimax, mostra-se promissora para alcançar a consistência de múltiplos personagens. Embora o processo ainda não seja perfeito, especialmente com nuances de vestuário e cabelo, os resultados já são impressionantes e significativamente melhores do que abordagens menos estruturadas.
A tecnologia de IA generativa está em constante evolução. É provável que, no futuro, as próprias ferramentas de geração de vídeo e imagem incorporem funcionalidades mais robustas para gerenciamento de consistência de personagens. Por enquanto, a engenharia de prompt cuidadosa e detalhada é a chave para desbloquear narrativas visuais coesas e críveis com múltiplos personagens gerados por IA.
A capacidade de criar vídeos com personagens consistentes através de IA está se tornando cada vez mais acessível. Ao empregar uma abordagem metódica para a criação de histórias, descrições de personagens e engenharia de prompts, como demonstrado, criadores de conteúdo podem superar um dos desafios mais significativos na produção de vídeo com IA. Encorajamos a experimentação com as ferramentas e técnicas mencionadas para explorar o vasto potencial criativo que a inteligência artificial oferece.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.