A Google DeepMind lançou recentemente o Imagen 3, seu mais novo e avançado modelo de geração de texto para imagem. Esta ferramenta representa um salto significativo na qualidade e na capacidade de interpretação de prompts, prometendo revolucionar a forma como criamos e interagimos com conteúdo visual gerado por inteligência artificial. O Imagen 3 já está disponível para experimentação através do ImageFX, uma plataforma dentro do Test Kitchen da Google, permitindo que usuários testem suas capacidades.
Para explorar o Imagen 3, os usuários podem visitar o site do Test Kitchen da Google. Dentro da interface do ImageFX, é possível verificar nas configurações (Settings) se a opção "Powered by Imagen 3" está ativa, garantindo que se está utilizando a versão mais recente do modelo. A interface é intuitiva: basta inserir o prompt desejado na caixa de texto e clicar em "Create". O ImageFX geralmente gera quatro variações de imagem por vez, embora, como veremos, a censura rigorosa possa limitar o número de resultados em alguns casos.
O vídeo promocional do Imagen 3 realiza uma série de testes comparativos, colocando o modelo lado a lado com dois de seus principais concorrentes: o DALL-E 3 da OpenAI e o Flux Dev, desenvolvido pela Black Forest Labs. Vamos analisar os resultados desses testes.
Neste primeiro teste, o Imagen 3 produziu uma imagem com alta nitidez e um estilo mais "punk-rock". O Flux Dev gerou uma imagem com um aspecto mais cinematográfico, enquanto o DALL-E 3 apresentou um resultado com cores supersaturadas e uma aparência um tanto artificial, descrita como "plástica".
Para este prompt, que exige um bom entendimento da anatomia humana e de poses específicas, o Imagen 3 se destacou. A imagem gerada foi precisa, com a postura do Guerreiro 1 (Virabhadrasana I) corretamente representada, incluindo detalhes como os cinco dedos das mãos e pés realistas. Em contraste, o Flux Dev não conseguiu representar a postura corretamente, e o DALL-E 3 também apresentou falhas, embora tenha se saído melhor que o Flux Dev na representação da pose. Vale notar que, mesmo com prompts simples, o Imagen 3 pode ter algumas de suas gerações censuradas por políticas de conteúdo.
Este teste avaliou a capacidade de gerar cenas complexas e, crucialmente, texto dentro da imagem. O Flux Dev foi o vencedor, conseguindo renderizar o texto "TEDx AI Search" corretamente. O Imagen 3 chegou perto, com o texto "TEDx Ai search" (com 'i' minúsculo), e uma qualidade de imagem geral muito boa e realista. O DALL-E 3, por sua vez, falhou na geração do texto e apresentou uma imagem com um personagem menos realista e um enquadramento questionável.
Aqui, o Imagen 3 brilhou, gerando uma imagem extremamente realista das mãos e pés, com detalhes impressionantes e sem falhas anatômicas. O Flux Dev também produziu um bom resultado, embora com pequenas imprecisões nos dedos dos pés. O DALL-E 3 não conseguiu gerar a imagem devido a violações de sua política de conteúdo, um problema recorrente com prompts envolvendo partes do corpo de forma mais explícita.
O Imagen 3 demonstrou sua força na geração de animais realistas, produzindo fotos de capivaras com detalhes nítidos na pelagem e nas faces. O Flux Dev gerou capivaras menos realistas, e o DALL-E 3 apresentou um resultado com um estilo mais cartunesco e artificial.
Novamente, o Imagen 3 se destacou, gerando imagens de dragões de Komodo incrivelmente realistas, capturando a textura da pele, a língua estendida e a postura alerta. O Flux Dev não conseguiu identificar corretamente o animal, gerando um lagarto genérico. O DALL-E 3, embora tenha tentado, produziu um dragão de Komodo com falhas anatômicas (excesso de garras) e uma aparência menos realista.
Este prompt complexo testou a capacidade de combinar múltiplos elementos e gerar texto. O Imagen 3 foi o claro vencedor, conseguindo renderizar todos os elementos solicitados, incluindo o texto correto na bandeira ("I ❤️ IMAGEN 3"). O Flux Dev acertou o texto, mas o caracol ficou deformado. O DALL-E 3 falhou tanto no texto quanto na representação geral da cena.
Este foi um teste crucial para avaliar a compreensão espacial e de relações entre objetos. O Imagen 3 executou o prompt perfeitamente, posicionando todos os elementos corretamente. O Flux Dev também obteve sucesso. Já o DALL-E 3 demonstrou dificuldades com a compreensão posicional, não conseguindo arranjar os objetos e animais conforme solicitado.
O Imagen 3 conseguiu gerar uma imagem no estilo anime, embora apenas uma das quatro tentativas tenha passado pela censura. O Flux Dev também apresentou um bom resultado. O DALL-E 3, embora tenha gerado imagens no estilo, tendeu a um nível de detalhe que, segundo o vídeo, o afastava de um visual de anime mais autêntico.
Este prompt visava testar a capacidade de gerar fotos de produtos para e-commerce. Tanto o Imagen 3 quanto o Flux Dev produziram resultados realistas, embora com pequenas imperfeições (como fones levemente tortos no caso do Imagen 3). O DALL-E 3 foi considerado menos realista. Para fotos de produtos altamente controladas, ferramentas como Stable Diffusion com ControlNet ainda podem ser preferíveis.
A plataforma ImageFX oferece um recurso interessante de sugestão de palavras-chave, onde termos no prompt se tornam interativos, permitindo ao usuário explorar variações (por exemplo, trocar "deitada" por "sentada" ou "grama" por "areia").
Uma consideração importante é a censura. O Imagen 3, através do ImageFX, parece ter filtros de conteúdo bastante rigorosos. Em vários dos testes, múltiplas imagens foram bloqueadas, mesmo com prompts aparentemente inócuos. Isso pode ser uma limitação para certos tipos de exploração criativa.
O Google Imagen 3 demonstra ser um modelo de geração de imagens extremamente poderoso e versátil. Suas principais forças residem na capacidade de gerar imagens com alto grau de realismo, detalhes nítidos, excelente compreensão da anatomia humana e animal, e uma notável habilidade para renderizar texto de forma precisa dentro das imagens – uma área onde muitos modelos anteriores falhavam. Além disso, sua capacidade de seguir prompts complexos com múltiplos elementos e relações espaciais é impressionante.
Comparado ao DALL-E 3, o Imagen 3 consistentemente produziu resultados mais realistas e com melhor adesão ao prompt, especialmente em relação à anatomia e texto. Contra o Flux Dev, a disputa foi mais acirrada em alguns cenários, com o Flux Dev mostrando-se forte em prompts de texto específicos, mas o Imagen 3 geralmente levou vantagem no realismo geral e na capacidade de gerar uma variedade maior de sujeitos com precisão.
Apesar da forte censura, que pode ser um obstáculo, o Imagen 3 é, sem dúvida, uma melhoria significativa em relação ao Imagen 2 e se posiciona como um dos melhores geradores de imagem por IA disponíveis atualmente, especialmente considerando que é oferecido gratuitamente através do ImageFX. Ele se mostra uma ferramenta promissora para artistas, designers e criadores de conteúdo.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.