O universo da inteligência artificial generativa de imagens foi recentemente agitado com o anúncio da Stability AI: o lançamento do Stable Diffusion 3.5. Esta nova versão promete avanços significativos, desafiando modelos estabelecidos como o Flux. Neste artigo, mergulharemos nas novidades, analisaremos seu desempenho e o compararemos com seu principal concorrente, com base nas primeiras impressões e testes divulgados.
Lançado em 22 de outubro, o Stable Diffusion 3.5 chegou com a promessa de revolucionar a forma como criamos imagens com IA. Vamos entender os principais pontos deste lançamento.
A Stability AI anunciou que o lançamento inicial inclui múltiplas variantes do modelo. As versões Stable Diffusion 3.5 Large e Stable Diffusion 3.5 Large Turbo já estão disponíveis. Adicionalmente, uma versão Stable Diffusion 3.5 Medium está programada para ser lançada em 29 de outubro. Esta última, com 2.5 bilhões de parâmetros, é projetada para rodar em hardware de consumidor, buscando um equilíbrio entre qualidade e facilidade de uso.
Uma notícia importante para criadores e empresas é que estes modelos são altamente personalizáveis e, crucialmente, podem ser utilizados para fins comerciais e não comerciais sob a licença permissiva da Stability AI Community License. Isso abre um leque de oportunidades para monetização e distribuição de trabalhos criados com a ferramenta.
Para acessar o Stable Diffusion 3.5, os usuários podem recorrer ao Hugging Face. O código de inferência também está disponível no GitHub, permitindo uma implementação mais técnica. Inicialmente, o download direto dos modelos no Hugging Face parecia restrito a contas autorizadas, mas a utilização online via plataformas parceiras é uma alternativa viável.
Os primeiros contatos com o Stable Diffusion 3.5 revelam um modelo com grande potencial, mas também com espaço para aprimoramentos, especialmente quando comparado ao Flux.
Nos testes iniciais, o Stable Diffusion 3.5 Large demonstrou uma capacidade notável de gerar imagens com um bom grau de realismo, especialmente em prompts detalhados. Em um comparativo direto com o Flux, utilizando um prompt para criar "um homem altamente detalhado sentado em uma cadeira de madeira em um quarto aconchegante e bem iluminado", o SD 3.5 produziu uma imagem que poderia facilmente passar por uma fotografia amadora, o que é um ponto positivo para quem busca naturalidade. No entanto, deformações, como em uma das pernas do personagem, ainda são observadas, um desafio comum em modelos de difusão sem LoRAs (Low-Rank Adaptation) específicos.
Quando o assunto é geração de texto em imagens, o Stable Diffusion 3.5 mostrou-se promissor. Em um exemplo com um capivara segurando uma placa com o texto "Hello World", o resultado foi perfeito. Alterando o texto para "Brain Project", o SD 3.5 novamente acertou, embora com pequenas deformidades na imagem do animal. Comparativamente, o Flux também se saiu bem, com o modelo da Black Forest Labs (Flux 1 Dev) frequentemente entregando textos nítidos e bem integrados à imagem, como no exemplo de uma mulher segurando uma placa com "Subscribe".
Atualmente, é possível testar o Stable Diffusion 3.5 gratuitamente (com algumas limitações) diretamente na plataforma Hugging Face Spaces. Outra plataforma mencionada, Replicate, que anteriormente oferecia acesso gratuito, parece ter tornado o modelo pago logo após o lançamento.
A Stability AI divulgou um gráfico de comparação (Elo Score) que foca na aderência ao prompt e na qualidade estética. Neste gráfico, o FLUX.1 dev (12B) aparece com uma ligeira vantagem sobre o SD 3.5 Large (8.1B) em ambos os aspectos. No entanto, o SD 3.5 Large supera significativamente modelos anteriores da família Stable Diffusion, como o SD 3.0 e SDXL.
Em um prompt para "mulher tirando uma selfie no banheiro, vestindo roupas pretas", ambas as IAs produziram resultados realistas e adequados para a criação de influenciadores digitais. O Flux 1 Dev, no entanto, apresentou uma imagem com menos deformações aparentes em comparação com a gerada pelo SD 3.5 na plataforma Hugging Face sem LoRAs.
Como mencionado, ambos os modelos são competentes. O SD 3.5 conseguiu renderizar "Hello World" e "Brain Project" com clareza. O Flux 1 Dev, por sua vez, exibiu um excelente desempenho com a palavra "Subscribe". A disputa aqui é acirrada, com pequenas variações dependendo do prompt específico.
Em um prompt mais desafiador – "Monte Everest com velas brilhantes à noite" – o Stable Diffusion 3.5 demonstrou uma melhor aderência ao conceito, incluindo as velas na cena de forma mais proeminente. O Flux, embora tenha gerado uma imagem esteticamente agradável do Monte Everest, não incorporou as velas. Isso sugere que, para prompts mais abstratos ou com múltiplos elementos, o SD 3.5 pode ter uma vantagem na interpretação.
A verdadeira força de modelos como o Stable Diffusion muitas vezes reside na sua capacidade de ser aprimorado pela comunidade através de LoRAs. Com a possibilidade de download local do SD 3.5 (via GitHub para o código de inferência e, espera-se, modelos completos no Hugging Face), usuários poderão treinar seus próprios LoRAs para refinar estilos, corrigir deformações e alcançar resultados ainda mais impressionantes. Plataformas como Tensor.Art, que já integram o Flux, provavelmente adicionarão o SD 3.5, facilitando o treinamento e uso de LoRAs sem a necessidade de um GPU potente.
O Stable Diffusion 3.5 representa um passo importante da Stability AI, oferecendo melhorias notáveis em relação às suas versões anteriores, especialmente em realismo e geração de texto. Embora o Flux 1 Dev ainda demonstre uma ligeira superioridade em aderência ao prompt e estética geral conforme dados da própria Stability AI, o SD 3.5 se mostra competitivo, principalmente quando consideramos seu potencial com LoRAs e a licença amigável para uso comercial.
A capacidade de gerar imagens com um aspecto mais "amador" e humano pode ser um diferencial para aplicações como a criação de influenciadores de IA, onde o realismo imperfeito é muitas vezes mais convincente. A comunidade de IA agora tem uma nova e poderosa ferramenta para explorar, e será fascinante observar como o Stable Diffusion 3.5 evoluirá com as contribuições e o refinamento dos usuários.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.