O Sora é um modelo de inteligência artificial desenvolvido pela OpenAI capaz de criar cenas de vídeo a partir de instruções textuais ou imagens. Ele se destaca pela capacidade de gerar vídeos com múltiplos personagens, tipos específicos de movimento e detalhes precisos do sujeito e do plano de fundo. A promessa é que o Sora possa compreender não apenas o que o usuário pede, mas também como essas coisas existem no mundo físico, resultando em vídeos com maior coerência e qualidade visual.
Ao acessar o Sora (atualmente, o acesso pode ser restrito e integrado a outras plataformas da OpenAI), a primeira impressão é de uma ferramenta robusta, embora ainda em desenvolvimento. A interface, como demonstrado no vídeo de análise que embasa este artigo, é projetada para ser intuitiva.
A tela inicial do Sora geralmente exibe uma galeria de vídeos gerados por outros usuários, incluindo exemplos em destaque que mostram o potencial da ferramenta. Abaixo, encontra-se a caixa de entrada de prompts, similar a outras ferramentas de IA generativa. Aqui, o usuário pode descrever a cena que deseja criar. Há controles para ajustar a proporção do vídeo (como 16:9, 1:1, 9:16), a duração (variando de 5 a 20 segundos, por exemplo, dependendo do plano) e a quantidade de variações de vídeo a serem geradas de uma vez.
Conforme detalhado na apresentação da ferramenta, para utilizar o Sora, é necessário ter uma assinatura do ChatGPT Plus, que custa aproximadamente $20 por mês. Esta assinatura oferece créditos para a geração de vídeos, com algumas limitações, como até 50 vídeos prioritários (correspondendo a 1.000 créditos), resolução de até 720p e duração de 5 segundos. Já usuários com o plano ChatGPT Pro (que pode custar cerca de $200 por mês) teriam acesso mais amplo, incluindo gerações ilimitadas, maior resolução (até 1080p), durações maiores (20 segundos) e mais gerações concorrentes, além de download sem marca d'água.
O Sora oferece diversas maneiras de criar vídeos, desde a animação de imagens estáticas até a geração completa a partir de texto e a montagem de cenas em um storyboard.
Uma funcionalidade interessante do Sora é a capacidade de transformar uma imagem estática em um vídeo animado. No exemplo demonstrado, uma imagem de um hambúrguer criada com o DALL·E foi carregada. Um prompt curto como "câmera panorâmica em torno de um hambúrguer quente e suculento" foi adicionado. O resultado, gerado em aproximadamente um minuto, mostrou uma animação decente, com o Sora adicionando movimento de câmera e vapor sutil, mesmo com a pré-visualização em 480p. Isso sugere que a qualidade final pode ser significativamente melhor em resoluções mais altas.
A principal força do Sora reside na sua capacidade de interpretar prompts de texto detalhados. Utilizando um prompt elaborado com a ajuda do ChatGPT para criar um vídeo cinematográfico de um hambúrguer gourmet, o Sora produziu um clipe com movimentos de câmera suaves e um visual que, mesmo em baixa resolução de preview, se aproximava de uma produção real. Isso demonstra o potencial do Sora para publicidade e criação de conteúdo visual.
O recurso de storyboard do Sora permite aos usuários planejar vídeos cena por cena, oferecendo um controle mais granular sobre a narrativa.
Nesta modalidade, o usuário descreve cada cena individualmente. Por exemplo, a primeira cena poderia ser "um tigre emerge de uma floresta" e a segunda "o tigre de repente começa a correr". O Sora então gera cada segmento. Nos testes observados, o realismo visual foi impressionante à primeira vista, mas foram notadas algumas inconsistências, como a cabeça do tigre aparecendo momentaneamente onde deveria estar sua cauda, ou o tigre não executar a ação de "correr" conforme especificado no prompt da segunda cena.
Outra abordagem é carregar imagens para cada cena do storyboard. O Sora pode automaticamente adicionar descrições a essas imagens, que podem ser editadas ou removidas. No exemplo com ingredientes de um hambúrguer (tomates, alface, cebola, o próprio hambúrguer) criados com o DALL·E, o resultado foi mais parecido com um slideshow de imagens estáticas com transições sutis do que um vídeo totalmente animado, indicando que a combinação de imagens e prompts descritivos pode precisar de mais refinamento para movimentos complexos.
O Sora também pode gerar um storyboard a partir de um prompt inicial. Por exemplo, com o prompt "close de um tigre caminhando em direção a um cervo desavisado", o Sora criou automaticamente duas cenas descritivas. A primeira cena mostrou o tigre se esgueirando, e a segunda o tigre se agachando para atacar. Embora o resultado visual seja sólido, ainda apresentou falhas, como o cervo se misturando ao fundo e movimentos estranhos nas pernas do tigre. A segunda cena também não capturou totalmente a intenção de "ataque furtivo".
O Sora oferece predefinições de estilo que podem ser aplicadas aos vídeos. Usando o prompt "um jovem garoto caminhando em direção a um dragão", foram testados alguns presets, conforme exibido na demonstração:
Esses testes indicam que os presets são uma ferramenta poderosa para definir o estilo visual, mas a fidelidade ao prompt de ação ainda pode variar.
O Sora da OpenAI demonstra um avanço notável na geração de vídeo por IA, especialmente em termos de realismo visual e complexidade de cena que ele pode tentar renderizar.
Pontos Fortes:
Limitações Atuais:
Apesar das limitações atuais, o Sora da OpenAI representa um marco significativo. A capacidade de gerar vídeos com este nível de detalhe e realismo a partir de texto abre um leque de possibilidades para criadores de conteúdo, cineastas, publicitários e educadores. À medida que a tecnologia evolui e se torna mais precisa e acessível, podemos esperar uma democratização ainda maior da produção de vídeo.
Ferramentas como o Sora têm o potencial de reduzir drasticamente o tempo e o custo associados à criação de vídeos de alta qualidade, permitindo que mais ideias visuais ganhem vida. No entanto, também levantam questões importantes sobre direitos autorais, desinformação e o futuro do trabalho criativo, discussões que se tornarão cada vez mais pertinentes com o avanço dessas tecnologias.
O Sora ainda não é perfeito, mas está claro que a OpenAI está pavimentando um caminho empolgante para o futuro da inteligência artificial na criação de vídeo. A comunidade de IA e os criadores de conteúdo certamente acompanharão de perto sua evolução.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.