A explosão de ferramentas de inteligência artificial (IA) para geração de imagens transformou a paisagem criativa. Diariamente, surgem novas plataformas prometendo resultados impressionantes, levantando a questão: qual delas é realmente a melhor? O especialista em IA Matt Wolfe, em seu canal no YouTube, realizou um extenso comparativo, testando diversos geradores com o mesmo prompt para desmistificar suas capacidades e ajudar os usuários a fazerem escolhas informadas. Este artigo resume e analisa suas descobertas, oferecendo um panorama detalhado sobre as principais opções do mercado.
Para garantir uma comparação justa entre as diferentes ferramentas de IA, Matt Wolfe utilizou um prompt padronizado: "A blonde woman on an urban city sidewalk with skyscrapers in the background on a beautiful, sunny day" (Uma mulher loira em uma calçada de uma cidade urbana com arranha-céus ao fundo em um belo dia de sol). A escolha por um prompt relativamente simples, sem excesso de detalhes ou modificadores artísticos específicos, foi intencional. Segundo Wolfe, o futuro da arte com IA não reside apenas na complexa engenharia de prompts, mas na capacidade da ferramenta de entregar a imagem desejada com a maior simplicidade possível.
O Stable Diffusion é um dos modelos de IA generativa de imagens mais conhecidos, principalmente por ser de código aberto, o que permite uma vasta gama de implementações e personalizações.
A interface Automatic 1111 é uma das mais populares para utilizar o Stable Diffusion localmente. Embora sua configuração inicial seja mais complexa, ela oferece um nível de controle e opções inigualável, incluindo a capacidade de carregar inúmeros modelos personalizados disponíveis em plataformas como o Civitai. Nos testes de Wolfe, o modelo base Stable Diffusion 1.5, mesmo sendo um dos mais utilizados, produziu imagens que, embora reconhecíveis, careciam do refinamento visto em outras ferramentas mais recentes ou especializadas. A qualidade pode variar drasticamente dependendo do modelo específico de Stable Diffusion escolhido dentro do Automatic 1111.
O Stable Diffusion XL (SDXL), a iteração mais recente do modelo, demonstrou um avanço significativo. Testado através da plataforma Clipdrop da Stability.ai, o SDXL gerou imagens consideravelmente mais detalhadas e realistas em comparação com o Stable Diffusion 1.5, mostrando o potencial evolutivo do modelo.
O Midjourney se consolidou como um dos geradores de imagens por IA mais populares, acessado predominantemente através do Discord. Utilizando seu próprio modelo proprietário, atualmente na versão 5.2 (no momento do vídeo), o Midjourney é conhecido por sua facilidade em produzir imagens artisticamente impressionantes, mesmo com prompts básicos. Matt Wolfe destacou que as imagens geradas pelo Midjourney superaram as do Stable Diffusion 1.5 com o mesmo prompt. A adição do parâmetro `--style raw` no Midjourney resultou em imagens mais fotorealistas e menos estilizadas, aproximando-se do que muitos usuários buscam em termos de realismo. A plataforma também tem introduzido novas funcionalidades, como pan (deslocamento) e zoom out, ampliando suas capacidades criativas.
Gigantes da tecnologia como Adobe e OpenAI também marcaram presença com suas próprias ferramentas de geração de imagens por IA.
O Adobe Firefly é a aposta da Adobe no campo da IA generativa. Seu grande diferencial é o treinamento exclusivo com imagens do Adobe Stock e de domínio público, o que o torna uma opção teoricamente mais segura para uso comercial. A plataforma permite escolher entre diferentes tipos de conteúdo, como Foto, Arte e Gráfico. Os resultados para o prompt de teste, ao selecionar o tipo "Foto", foram bastante realistas e de alta qualidade, posicionando o Adobe Firefly como um forte concorrente, especialmente para criadores preocupados com direitos autorais.
O DALL-E 2, desenvolvido pela OpenAI, foi um dos primeiros modelos a popularizar a geração de imagens por IA. Embora tenha sido um marco, os resultados com o prompt padrão no teste de Wolfe não se destacaram tanto em comparação com as ferramentas mais recentes, apresentando imagens com menos detalhes e, por vezes, com composições estranhas.
O Bing Image Creator, da Microsoft, é outra plataforma que utiliza a tecnologia DALL-E. Especula-se que possa ser uma versão mais recente ou aprimorada, pois os resultados obtidos por Matt Wolfe foram notavelmente melhores do que os do DALL-E 2 acessado diretamente, apresentando maior detalhe e realismo.
O ecossistema de geradores de imagens por IA é vasto e diversificado, com muitas outras plataformas oferecendo abordagens e especializações únicas.
O DeepFloyd IF é um modelo de pesquisa conhecido por sua capacidade de gerar texto dentro das imagens, algo que a maioria dos outros modelos ainda luta para fazer com precisão. No entanto, para o prompt de teste focado na imagem de uma pessoa, os resultados foram medianos, indicando que seu forte pode não ser o fotorrealismo de figuras humanas.
O Scenario.com é uma plataforma voltada para a criação de assets para jogos. Utilizando seu modelo treinado "Character Portraits", os resultados tiveram um estilo mais cartunizado e de ilustração, alinhado com sua proposta de valor para desenvolvedores de jogos.
O BlueWillow opera via Discord e utiliza modelos Stable Diffusion por baixo dos panos. Os resultados foram comparáveis aos de um bom modelo Stable Diffusion, e a plataforma também incorporou funcionalidades como pan e zoom out, similares às do Midjourney.
O NightCafe oferece acesso a diversos modelos, incluindo Stable Diffusion 1.5, 2.1, SDXL e DALL-E 2. No teste com Stable Diffusion 2.1 e o preset "NightCafe", as imagens geradas não apresentaram alta qualidade ou detalhe facial, ficando aquém de outras opções.
O Lexica.art se destaca por possuir seu próprio modelo treinado, o Lexica Aperture (versões v2 e v3 testadas). As imagens geradas com o Aperture v3 mostraram um estilo distinto e de boa qualidade, embora as pernas na imagem de teste tenham ficado um pouco estranhas. A versão v2 apresentou um estilo mais "Grand Theft Auto", segundo Wolfe.
O Playground AI também permite o uso de diferentes modelos, incluindo o seu próprio Playground v1. Os testes iniciais com o v1 não foram impressionantes, mas a aplicação de filtros como "Masterpiece" e "Cinematic" melhorou consideravelmente os resultados, adicionando um toque artístico e detalhado.
O Dreamlike.art oferece uma gama de modelos, incluindo o Kandinsky 2.1 e o Realism Engine 1.0. O Kandinsky 2.1 produziu imagens muito cartunizadas, enquanto o Realism Engine 1.0 entregou resultados mais realistas e de boa qualidade, comparáveis aos melhores do teste.
O Leonardo.Ai emergiu como um dos favoritos de Matt Wolfe. A plataforma oferece modelos próprios como o Leonardo Diffusion e o RPG 4.0, além da funcionalidade "Alchemy", um pipeline de geração de imagens que melhora significativamente o contraste, detalhes e resolução. Os resultados com o Leonardo Diffusion e Alchemy ativado, especialmente na opção "Photography", foram consistentemente de alta qualidade e fotorealismo, rivalizando de perto com o Midjourney (Raw).
Após testar uma vasta gama de geradores de imagens por IA, Matt Wolfe concluiu que a "melhor" ferramenta é subjetiva e depende das necessidades específicas do usuário. Para quem busca simplicidade e resultados fotorealistas com prompts básicos, o Midjourney (especialmente com `--style raw`) se destaca. Para aqueles que desejam um controle mais granular, acesso a diversos modelos e a capacidade de treinar seus próprios modelos, o Leonardo.Ai com sua funcionalidade Alchemy e modelos como Leonardo Diffusion e RPG 4.0 é uma excelente escolha. Para criação de assets para jogos, o Scenario.com é altamente recomendado. E para quem busca uma opção gratuita e de qualidade crescente, o Stable Diffusion XL (acessível via Clipdrop) e o Lexica Aperture são impressionantes.
É importante notar que muitas plataformas utilizam modelos subjacentes como Stable Diffusion ou DALL-E, mas adicionam seus próprios ajustes finos, pipelines e interfaces, o que pode resultar em experiências e qualidades de imagem distintas. A habilidade em criar prompts detalhados e o conhecimento das configurações específicas de cada plataforma também influenciam enormemente o resultado final. Para explorar ainda mais ferramentas, o site FutureTools.io, mantido por Matt Wolfe, é um excelente recurso, listando centenas de opções na categoria "Generative Art". A escolha ideal, portanto, virá da experimentação e da identificação da ferramenta que melhor se alinha aos seus objetivos criativos e nível de proficiência em IA.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.