O Google surpreendeu a comunidade de inteligência artificial ao liberar o acesso ao Imagen 4, sua mais recente e poderosa ferramenta de geração de imagens. Conforme demonstrado em diversas análises, como a apresentada no vídeo que inspira este artigo, o Imagen 4 está disponível para experimentação gratuita através da plataforma Whisk, e os resultados iniciais são, no mínimo, impressionantes. A qualidade e o nível de realismo alcançados colocam esta IA em um patamar elevadíssimo, desafiando gigantes estabelecidos no mercado.
A primeira impressão ao visualizar as imagens geradas pelo Imagen 4 é de assombro. Exemplos que variam desde operários em uma fábrica, produtos cosméticos com embalagens detalhadas, pratos gourmet com texturas complexas, até carros esportivos em cenários realistas, demonstram uma capacidade de renderização que beira o surreal. Essa qualidade levanta questionamentos importantes sobre o futuro da fotografia e do design gráfico.
A análise apresentada no vídeo destaca a capacidade do Imagen 4 de lidar com detalhes complexos, um dos grandes desafios para geradores de imagem. Observamos:
Para contextualizar o poder do Imagen 4, o vídeo realiza comparações diretas com outras ferramentas de ponta: Midjourney 7, Flux Pro 1.1 (referenciado no vídeo como Flux, possivelmente uma ferramenta específica ou um nome genérico para uma implementação do modelo Flux da Blackmagic Design ou similar) e o ChatGPT (provavelmente referindo-se ao DALL·E integrado ou acessado via ChatGPT).
Neste teste, o prompt solicitava uma vista aérea de uma coruja-das-neves em voo sobre uma floresta de pinheiros envolta em névoa ao nascer do sol, com especificações técnicas como lente telefoto de 200mm, abertura f/4 e velocidade do obturador de 1/2000s para congelar o movimento da ponta da asa. O Google Imagen 4 demonstrou uma interpretação notável do prompt, capturando todos os elementos solicitados. O Midjourney também apresentou boa qualidade. O ChatGPT, por sua vez, gerou uma imagem mais granulada e menos nítida, enquanto o Flux 1.1, apesar de bom, apresentou uma pequena falha nos olhos da coruja.
O desafio aqui era gerar um macro close-up extremo de uma gota de orvalho em uma folha de musgo. O Google Imagen 4 obteve um bom resultado. O Midjourney intensificou ainda mais o close-up. O ChatGPT teve dificuldade em representar a cena de forma clara. Surpreendentemente, segundo a análise do vídeo, o Flux 1.1 foi considerado o melhor neste teste específico de close-up extremo.
Ao solicitar uma cena de café de rua parisiense como uma pintura a óleo impressionista, o Google Imagen 4 se destacou por uma interpretação criativa: representou a cena como uma pintura já emoldurada, como se estivesse em uma galeria. Midjourney e Flux entregaram pinturas mais convencionais, enquanto o resultado do ChatGPT foi considerado inferior.
Em um teste de hiper-realismo envolvendo mãos desgastadas de um octogenário segurando um relógio de bolso antigo, o Google Imagen 4 produziu uma imagem boa, embora com um detalhe questionável no mecanismo de abertura dupla do relógio, que o apresentador do vídeo nunca tinha visto. O Midjourney, segundo a análise, exagerou no realismo das mãos. O ChatGPT foi apontado como o melhor neste cenário específico, enquanto o Flux 1.1 apresentou um resultado exagerado e com distorções.
Além do fotorrealismo, o Google Imagen 4 demonstra grande competência na criação de ilustrações. O vídeo exemplifica com a geração de arte no estilo 'Chinese paper-cut art' (arte chinesa de recorte em papel) com efeito 3D, e também no estilo 'Kawaii Sanrio-style illustration', remetendo a personagens como a Hello Kitty. Essa versatilidade amplia consideravelmente as aplicações da ferramenta.
Com base na análise apresentada, o Google Imagen 4 emerge como uma ferramenta extremamente poderosa e versátil, capaz de rivalizar e, em alguns aspectos, superar seus concorrentes. Sua capacidade de interpretar prompts complexos, gerar detalhes fotorrealistas e criar ilustrações estilizadas é notável, especialmente considerando o acesso gratuito via Whisk. Embora ferramentas como Midjourney, Flux e ChatGPT (DALL·E) possuam seus próprios méritos e se destaquem em nichos específicos, o Imagen 4 se posiciona como um divisor de águas, democratizando o acesso à geração de imagens de altíssima qualidade. A 'briga' entre as IAs está acirrada, e quem ganha é o usuário, com opções cada vez mais sofisticadas e acessíveis.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.