A inteligência artificial (IA) está avançando a passos largos, transformando radicalmente a maneira como criamos e interagimos com conteúdo digital. De pesquisas inovadoras que prometem revolucionar a edição de imagens a ferramentas já disponíveis que capacitam criadores, o cenário é de constante evolução e entusiasmo. Neste artigo, exploraremos algumas das mais recentes e impressionantes novidades no universo da IA generativa, com foco em imagens, vídeos e a criação de mundos tridimensionais, além de destacar ferramentas que você pode experimentar hoje mesmo.
Uma das pesquisas mais impactantes recentemente divulgadas, que agitou a comunidade de IA, é o DragGAN. Este projeto, fruto da colaboração de instituições como o Max Planck Institute for Informatics e o Google, apresenta uma forma intuitiva e poderosa de manipular imagens.
DragGAN, que significa "Arraste Sua GAN", permite a manipulação interativa de imagens baseada em pontos. Essencialmente, você pode selecionar pontos em uma imagem gerada por uma Rede Adversarial Generativa (GAN) e arrastá-los para uma nova posição. A IA, então, ajusta de forma coesa toda a imagem para refletir essa mudança, mantendo o realismo. Por exemplo, é possível alterar a pose de um leão, abrir ou fechar a boca de um cachorro, ou mudar a direção do olhar de uma pessoa, tudo isso com resultados surpreendentemente naturais. As GANs, como o nome sugere, utilizam duas redes neurais – um gerador e um discriminador – que competem entre si para criar imagens cada vez mais realistas, um método diferente dos modelos de difusão popularizados por ferramentas como Midjourney e Stable Diffusion, que geralmente partem de ruído para gerar uma imagem.
As implicações do DragGAN são vastas, podendo, no futuro, simplificar tarefas complexas de edição de imagem que hoje exigiriam softwares como o Photoshop e um alto grau de habilidade técnica. A capacidade de modificar a pose, forma e expressão em imagens com tanta fluidez abre novas fronteiras para artistas digitais, fotógrafos e designers. De acordo com a página do projeto no GitHub, o código do DragGAN está previsto para ser lançado em junho, o que permitirá que a comunidade explore e desenvolva ainda mais essa tecnologia.
A NVIDIA, conhecida por suas unidades de processamento gráfico (GPUs), também está na linha de frente da pesquisa em IA, apresentando avanços notáveis na criação de visuais digitais ultrarrealistas.
Uma das pesquisas recentes da NVIDIA Research demonstra a capacidade de manipular cabelos em modelos digitais com um nível de detalhe impressionante. A tecnologia permite ajustar fios individuais, alterar penteados e simular o comportamento físico do cabelo de forma extremamente realista, o que tem aplicações significativas para a indústria de jogos, cinema e realidade virtual.
Outra inovação da NVIDIA são os Modelos de Aparência Neural em Tempo Real. Essa tecnologia utiliza IA para aplicar texturas hiper-realistas a objetos 3D. O sistema é capaz de simular detalhes minuciosos como o brilho da cerâmica, imperfeições, impressões digitais e poeira em superfícies, além de reflexos complexos da luz. O resultado são objetos 3D que parecem incrivelmente reais, uma grande promessa para o desenvolvimento de jogos e experiências imersivas.
A capacidade da IA de interpretar texto e transformá-lo em conteúdo visual complexo está abrindo novas avenidas para a criação de vídeos e cenas tridimensionais.
O projeto Text2Performer foca na geração de vídeos de humanos a partir de descrições textuais. A IA não apenas cria a aparência do personagem conforme especificado (roupas, cor do cabelo, etc.), mas também o anima realizando ações e movimentos descritos no prompt. Isso representa um passo significativo para a criação automatizada de conteúdo de vídeo, com potencial para publicidade, educação e entretenimento.
Já o Text2NeRF utiliza o poder dos Neural Radiance Fields (NeRFs) para gerar cenas 3D completas a partir de simples prompts de texto. NeRFs são uma técnica que aprende uma representação 3D contínua de uma cena a partir de um conjunto de imagens 2D. Com Text2NeRF, é possível descrever um ambiente, como "uma cabana aconchegante na floresta" ou "um jardim florido", e a IA constrói uma cena 3D navegável correspondente, incluindo mapas de profundidade para maior realismo.
Além das pesquisas promissoras, existem diversas ferramentas de IA já acessíveis que permitem explorar o poder da criação de conteúdo generativo.
Para quem busca uma alternativa de código aberto a ferramentas como o D-ID, o SadTalker, disponível no Hugging Face, é uma excelente opção. Ele permite que você envie uma imagem de um rosto e um arquivo de áudio (ou gere áudio a partir de texto) para criar um vídeo onde a pessoa na imagem parece estar falando o áudio fornecido, com sincronia labial e movimentos de cabeça.
Embora não seja estritamente uma ferramenta de IA, o Google Earth Studio merece menção pela sua capacidade de criar animações impressionantes usando as imagens de satélite e 3D do Google Earth. É possível criar zooms dramáticos, órbitas em torno de locais específicos e trajetórias de ponto a ponto, ideal para adicionar um toque cinematográfico a vídeos.
A ferramenta de geração de vídeo com IA Kaiber introduziu recentemente um recurso de storyboarding. Isso permite que os usuários criem vídeos com múltiplas cenas, cada uma com seu próprio prompt e estilo, e definam transições e movimentos de câmera entre elas. É uma forma poderosa de contar histórias visuais mais complexas usando IA.
O Blockade Labs é conhecido por sua capacidade de gerar skyboxes (ambientes 3D de 360 graus) a partir de prompts de texto. Recentemente, eles adicionaram uma funcionalidade que permite aos usuários desenhar diretamente na grade de criação. Esses desenhos são então interpretados pela IA e incorporados ao mundo 3D gerado, oferecendo um controle mais direto sobre a composição da cena.
Essas são apenas algumas das empolgantes frentes de pesquisa e ferramentas que estão moldando o futuro da criação de conteúdo com inteligência artificial. A velocidade com que novas capacidades surgem é impressionante, e é apenas uma questão de tempo até que muitas dessas tecnologias, hoje em fase de pesquisa, se tornem acessíveis ao público. Para se manter atualizado sobre as últimas novidades e descobrir mais ferramentas, o site FutureTools.io, curado por Matt Wolfe (o apresentador do vídeo original), é um excelente recurso, oferecendo uma vasta coleção de ferramentas de IA e notícias do setor.
O futuro é visualmente rico e cada vez mais co-criado com a inteligência artificial, abrindo um leque de possibilidades para artistas, desenvolvedores e criadores de conteúdo em geral.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.