O Stable Diffusion 3, a mais recente iteração do popular modelo de geração de imagens por inteligência artificial, foi finalmente lançado, gerando grande expectativa e, subsequentemente, um debate acalorado na comunidade de IA. Anunciado como o modelo de geração de imagem mais sofisticado da Stability AI até o momento, a promessa era de um novo nível de fotorrealismo e compreensão de prompts complexos. No entanto, os resultados iniciais após o lançamento dos pesos do modelo revelaram uma realidade mista, levantando questões sobre seu desempenho e o futuro da plataforma.
Por quase dois anos, o Stable Diffusion se consolidou como a principal plataforma de código aberto para IA generativa, superando em muitos casos a qualidade de ferramentas proprietárias como o DALL-E da OpenAI e o Midjourney. Sua natureza open-source permitiu a criação de uma vasta gama de conteúdos, incluindo aqueles não permitidos por modelos fechados, e fomentou uma comunidade vibrante que desenvolveu inúmeros plugins e extensões, como o AnimateDiff para animações e o ControlNet para customização de poses.
Contudo, a Stability AI, empresa por trás do Stable Diffusion, enfrentou um período turbulento nos últimos meses. Seu CEO, Emad Mostaque, deixou a companhia para se dedicar a um projeto de criptomoeda. Além disso, surgiram relatos, como os publicados pelo The Register, indicando que a empresa estava com dificuldades financeiras, gastando cerca de 99 milhões de dólares anuais em GPUs alugadas na nuvem (principalmente da AWS e Google Cloud), enquanto sua receita em 2023 foi de apenas 11 milhões. No final de 2023, a empresa teria apenas 4 milhões de dólares em caixa. Planos de levantar 500 milhões de dólares com investidores como NVIDIA, Google e Intel não se concretizaram, deixando o futuro da empresa e do Stable Diffusion 3 incerto.
Apesar das dificuldades, a Stability AI anunciou em abril a disponibilidade da API do Stable Diffusion 3, prometendo melhorias significativas, especialmente na geração de texto e na compreensão de prompts complexos. As imagens de pré-visualização divulgadas pela empresa mostravam uma capacidade impressionante de gerar textos legíveis e seguir instruções detalhadas, superando modelos anteriores e concorrentes em testes de benchmark para estética visual, seguimento de prompt e tipografia, conforme dados apresentados em seu artigo de pesquisa.
Em 12 de junho, os pesos do modelo Stable Diffusion 3 Medium foram finalmente disponibilizados na plataforma Hugging Face. A licença, no entanto, é uma "open non-commercial license", o que significa que para uso comercial em larga escala é necessário um "low-cost Creator License". Isso, por si só, já gerou discussões na comunidade acostumada com a maior flexibilidade dos modelos anteriores.
Os resultados obtidos pela comunidade após o lançamento foram, no mínimo, decepcionantes em certos aspectos. Embora o modelo demonstre boa capacidade de gerar paisagens e objetos não humanos, e de fato seja competente na geração de texto e na compreensão de contextos complexos (como um porco translúcido com um porco menor dentro ou uma nave espacial em formato de pretzel), ele falha drasticamente na representação da anatomia humana. As imagens geradas com humanos frequentemente apresentam deformidades bizarras, membros extras ou ausentes, e uma incapacidade chocante de renderizar mãos e dedos de forma realista. Essa dificuldade com a anatomia humana e, em particular, com as mãos, é um problema conhecido em geradores de imagem por IA, mas esperava-se um avanço significativo no SD3.
Além disso, o modelo possui filtros de segurança muito rigorosos, o que impede a geração de conteúdo NSFW. Essa restrição, similar à do Stable Diffusion 2, que levou muitos usuários a preferirem o SD 1.5 ou o SDXL, pode limitar a adoção do SD3 pela parcela da comunidade interessada nesse tipo de conteúdo, que historicamente encontrou no Stable Diffusion um espaço mais permissivo.
Com base nos exemplos e na discussão apresentada no vídeo, o Stable Diffusion 3 parece ter os seguintes pontos fortes e fracos:
Comparado com o SDXL e o SD 1.5, o SD3 mostra uma regressão na qualidade da geração de humanos, o que é surpreendente para um modelo mais novo. A comunidade em plataformas como Civitai, que é um grande repositório de modelos customizados (checkpoints e LoRAs), provavelmente terá que trabalhar arduamente para criar versões fine-tuned do SD3 que corrijam essas falhas, caso a licença permita e a estrutura do modelo seja propícia para tal.
A performance inconsistente do Stable Diffusion 3, somada aos problemas financeiros da Stability AI e à sua dependência da comunidade open-source para refinar seus modelos base, levanta questões sobre a sustentabilidade da plataforma. Cada nova versão do Stable Diffusion requer que a comunidade reconstrua e adapte seus checkpoints e LoRAs, um esforço considerável. Se os modelos base continuarem a apresentar falhas tão gritantes, a motivação da comunidade pode diminuir.
Apesar disso, o Stable Diffusion, por ser de código aberto, tem a resiliência de sua comunidade. Mesmo que a Stability AI enfrente mais dificuldades, o modelo em si pode continuar a evoluir através dos esforços descentralizados. No entanto, a competição no campo da IA generativa é acirrada, e se o Stable Diffusion não conseguir acompanhar os avanços de modelos proprietários ou de outros projetos open-source mais eficientes, ele pode, de fato, perder relevância.
Ainda é cedo para decretar o fim do Stable Diffusion, mas o lançamento do SD3 foi, sem dúvida, um balde de água fria para muitos entusiastas que esperavam um salto qualitativo mais consistente. Resta aguardar para ver como a comunidade reagirá e se futuras versões ou modelos fine-tuned conseguirão superar os atuais desafios.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.