O universo da inteligência artificial (IA) está em constante efervescência, com avanços surpreendentes surgindo a cada semana. Recentemente, uma série de anúncios e lançamentos demonstrou o ritmo acelerado dessa evolução, prometendo transformar a maneira como interagimos com a tecnologia e criamos conteúdo digital. Neste artigo, exploraremos algumas das novidades mais impactantes, desde aprimoramentos em geradores de imagem como o Midjourney até rumores sobre o aguardado GPT-4 e ferramentas inovadoras para animação e edição de vídeo com IA.
O Midjourney, uma das ferramentas de IA mais populares para geração de imagens a partir de texto, está se preparando para o lançamento da sua quinta versão (V5). Embora detalhes completos ainda não tenham sido divulgados oficialmente, a plataforma já permite que usuários pagantes participem de um sistema de votação para avaliar e selecionar as melhores imagens geradas pela nova versão. Esse processo colaborativo visa treinar e refinar o algoritmo do Midjourney V5, alinhando-o ainda mais com as preferências estéticas e as expectativas dos usuários. A qualidade das imagens preliminares da V5, que prometem maior resolução, detalhamento e alcance estilístico em comparação com a versão 4 (V4), já impressiona a comunidade.
Talvez a notícia mais explosiva da semana tenha sido o possível anúncio da chegada do GPT-4. De acordo com uma reportagem do portal alemão heise online, citando Andreas Braun, CTO da Microsoft Alemanha, o GPT-4 seria lançado na semana seguinte ao dia 9 de março de 2023 e, crucialmente, seria multimodal. Essa informação, mencionada durante um evento de IA, sugere um salto significativo em relação aos modelos anteriores.
Uma IA multimodal é capaz de processar e compreender informações de múltiplas modalidades de dados simultaneamente. Isso significa que, em vez de se limitar apenas a texto, como o ChatGPT atual (baseado no GPT-3.5), o GPT-4 poderia, teoricamente, interagir com imagens, vídeos e áudio. Essa capacidade abriria um leque imenso de novas aplicações, desde análises mais ricas de conteúdo multimídia até a criação de experiências interativas mais complexas e intuitivas.
Apesar do entusiasmo, é importante notar que, no momento da gravação do vídeo original que inspirou este artigo, essa informação sobre o GPT-4 provinha de uma única fonte. No entanto, Silke Hahn, editora de tecnologia do heise online, publicou um tweet afirmando que a Microsoft Alemanha entrou em contato para corrigir um nome escrito incorretamente no artigo, mas não desmentiu as informações sobre o GPT-4, o que adiciona uma camada de credibilidade ao rumor. A Microsoft, como uma grande investidora na OpenAI, desenvolvedora dos modelos GPT, teria acesso privilegiado a tais informações.
Corroborando a ideia de um futuro multimodal, a Microsoft também publicou recentemente um paper sobre o Visual ChatGPT. Este projeto conecta o ChatGPT a uma série de Modelos de Fundação Visual (Visual Foundation Models), permitindo o envio e recebimento de imagens durante as conversas. O Visual ChatGPT já demonstra capacidades como responder perguntas sobre imagens, remover objetos de fotos e até gerar novas imagens a partir de descrições textuais e visuais combinadas. Esta pesquisa pode ser um indicativo das funcionalidades que poderemos encontrar no GPT-4, caso ele realmente seja multimodal.
Além dos grandes modelos de linguagem, diversas outras ferramentas de IA estão surgindo e expandindo as fronteiras da criação digital e da interação homem-máquina.
O Chat D-ID é uma plataforma que permite interações conversacionais com avatares digitais que possuem rosto e voz. Essencialmente, ele combina a capacidade de conversação de modelos como o ChatGPT com uma interface visual e auditiva, tornando a experiência mais próxima de uma conversa real. Usuários podem experimentar a ferramenta gratuitamente, com um limite inicial de interações, para ter uma noção do potencial dessa tecnologia em áreas como atendimento ao cliente, educação e entretenimento.
Um paper divulgado em 8 de março de 2023 apresentou o X-Avatar, um modelo de avatar humano expressivo. Essa tecnologia visa capturar toda a complexidade das expressões e movimentos humanos para aplicações em telepresença, realidade aumentada (AR), realidade virtual (VR) e além. O X-Avatar pode ser treinado a partir de scans 3D completos ou dados RGB-D, aprendendo a gerar avatares com alta fidelidade de movimentos corporais, gestos manuais, expressões faciais e aparência. O sistema propõe um método de amostragem e inicialização que foca em partes específicas do corpo, resultando em animações mais realistas e detalhadas, especialmente nas mãos e no rosto.
O Video-P2P (Video Editing with Cross-attention Control) é outra pesquisa promissora, similar em conceito ao InstructPix2Pix, mas aplicada a vídeos. Essa ferramenta permite que usuários editem vídeos utilizando apenas prompts de texto. Por exemplo, seria possível pegar um vídeo de uma criança andando de bicicleta e, com um comando de texto, transformá-la em um personagem de Lego andando na mesma bicicleta, ou substituir um motociclista por um personagem como o Homem-Aranha, mantendo o restante da cena intacto. O código e os dados desta pesquisa ainda não foram liberados publicamente, mas o potencial para simplificar processos complexos de edição de vídeo é enorme.
Uma das demonstrações mais impressionantes é o Wonder Studio da Wonder Dynamics. Esta ferramenta de IA promete automatizar a animação, iluminação e composição de personagens CG (computação gráfica) em cenas de live-action. A ideia é que cineastas e criadores de conteúdo possam filmar uma cena com atores reais e, em seguida, substituir esses atores por personagens 3D de forma automática e realista, sem a necessidade de processos complexos e caros de motion capture (captura de movimento) e VFX (efeitos visuais) frame a frame.
O sistema detecta automaticamente a performance do ator em filmagens de câmera única, transfere essa performance para o personagem CG escolhido e o integra à cena, ajustando iluminação e composição. O mais notável é que o Wonder Studio é uma plataforma baseada na web, o que significa que não exigirá hardware de ponta para ser utilizado, democratizando o acesso a efeitos visuais de alta qualidade.
A credibilidade do Wonder Dynamics é reforçada por sua equipe e investidores. Entre os cofundadores está Tye Sheridan, ator conhecido por seu papel em "Jogador Nº 1". O conselho consultivo inclui nomes de peso como Steven Spielberg e Joe Russo (dos Irmãos Russo, diretores de filmes da Marvel). Além disso, a empresa conta com investimentos de gigantes como Epic Games e Samsung Next.
Os avanços recentes em inteligência artificial são um testemunho da velocidade com que este campo está evoluindo. Desde a geração de imagens fotorrealistas com o Midjourney V5, passando pela promessa de uma IA multimodal com o GPT-4, até ferramentas que transformam a criação de avatares, edição de vídeo e efeitos visuais, como X-Avatar, Video-P2P e o impressionante Wonder Studio, estamos à beira de uma nova era de possibilidades criativas e interativas. Acompanhar essas novidades é essencial para entender o impacto transformador que a IA terá em diversas áreas nos próximos anos.
Para se manter atualizado sobre as últimas ferramentas e notícias de IA, você pode explorar recursos como o FutureTools.io, que compila e organiza uma vasta gama de ferramentas de IA disponíveis.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.