A inteligência artificial (IA) generativa de imagens deu um salto monumental com o lançamento e a crescente acessibilidade do DALL-E 3, a mais recente inovação da OpenAI. Esta ferramenta promete não apenas desafiar gigantes estabelecidos como Midjourney e Stable Diffusion, mas também democratizar o acesso à criação de arte digital de alta qualidade. O mais surpreendente é que agora é possível explorar o poder do DALL-E 3 gratuitamente através das plataformas da Microsoft.
O DALL-E 3 representa uma evolução significativa em relação ao seu predecessor, o DALL-E 2. Ele demonstra uma capacidade superior de compreender nuances e detalhes em prompts de texto, traduzindo ideias complexas em imagens com uma precisão notável. Isso inclui uma melhoria substancial na renderização de texto dentro das imagens e na representação coesa de múltiplos personagens e elementos, desafios comuns para modelos anteriores.
A maneira mais acessível de experimentar o DALL-E 3 atualmente é através do ecossistema do Microsoft Bing. Embora a página não declare explicitamente "DALL-E 3", as evidências e comparações de resultados sugerem fortemente sua integração.
O crédito pela divulgação inicial dessa forma de acesso vai para o YouTuber especializado em IA, MattVidPro AI. Ele foi um dos primeiros a demonstrar como o público poderia começar a usar essa nova tecnologia.
Para começar a criar suas próprias imagens com o DALL-E 3:
O acesso ao DALL-E 3 através do Bing está sendo implementado gradualmente. Se você não conseguir acesso imediato, MattVidPro AI sugere tentar diferentes navegadores (ele obteve sucesso com o Firefox após limpar cache e cookies). No entanto, muitos usuários, incluindo o apresentador do vídeo que originou este artigo, conseguiram acesso direto no Google Chrome sem dificuldades. É provável que, no momento em que você lê este artigo, o acesso já esteja mais amplamente disponível.
A superioridade do DALL-E 3 sobre o DALL-E 2 é gritante. Testes comparativos utilizando os mesmos prompts em ambas as plataformas demonstram que o DALL-E 3 produz imagens significativamente mais detalhadas, coerentes e fiéis à descrição textual.
Utilizando prompts complexos extraídos do blog oficial da OpenAI sobre o DALL-E 3, como "Uma ilustração de um coração humano feito de vidro translúcido, sobre um pedestal em meio a um mar tempestuoso...", o Bing Image Creator gerou resultados estilisticamente muito próximos aos exemplos do DALL-E 3, embora com um contraste ligeiramente diferente e fixo na resolução de 1024x1024 pixels. Em contrapartida, o DALL-E 2 (acessível via labs.openai.com) produziu imagens de qualidade muito inferior, com dificuldades evidentes na interpretação do prompt e na renderização de texto.
Uma das áreas onde o DALL-E 3 brilha é na incorporação de texto legível em imagens e na representação de múltiplos personagens interagindo. Por exemplo, um prompt como "SpongeBob saindo com Super Mario" resultou em imagens coesas e reconhecíveis no DALL-E 3, algo que modelos anteriores, incluindo o Midjourney, frequentemente têm dificuldade em realizar com precisão. Da mesma forma, prompts solicitando texto específico, como "SpongeBob dizendo 'Hold my buns'", foram executados com sucesso pelo DALL-E 3, enquanto o DALL-E 2 apresentou apenas caracteres incompreensíveis.
Ao usar o DALL-E 3 no Bing Image Creator, você terá um número limitado de "boosts" (créditos gratuitos) que permitem a geração mais rápida de imagens. Após o esgotamento desses boosts, ainda é possível gerar imagens, porém o processo se torna mais lento. No momento, não parece haver opção para alterar a proporção das imagens, que são geradas em 1024x1024.
Um aspecto crucial destacado pela OpenAI é que as imagens criadas com o DALL-E 3 são de propriedade do usuário, permitindo seu uso para reimpressão, venda e merchandising sem necessidade de permissão adicional. Isso abre um leque de oportunidades para criadores de conteúdo.
Para aqueles que desejam monetizar suas criações, plataformas como a Wirestock.io surgem como aliadas valiosas. A Wirestock permite que você envie suas imagens geradas por IA (ou fotografias tradicionais) e as distribui para diversos marketplaces de fotos stock, como Adobe Stock, 123RF, Freepik, Dreamstime e Imago. Eles cuidam do processo de submissão, facilitando a entrada nesse mercado.
A Wirestock também auxilia os criadores a entenderem o mercado, oferecendo insights sobre as tendências de conteúdo mais procuradas. Em um artigo de blog recente, intitulado "Explorando Tendências de Conteúdo Sob Demanda no Mundo das Imagens Geradas por IA", a plataforma detalha os tipos de visuais de IA que estão vendendo bem, como imagens que desafiam a realidade, temas de feriados, retratos de alta qualidade e papéis de parede mesmerizantes. Eles também oferecem uma newsletter semanal, a "WirePicks", com dicas sobre os prompts e estilos mais rentáveis.
A capacidade do DALL-E 3 de interpretar prompts criativos e até mesmo replicar o estilo de personagens conhecidos é impressionante. Testes com prompts como "CCTV footage of Anna from Frozen stealing some eggs from a supermarket" ou "Larry David playing tennis against Serena Williams" geraram resultados divertidos e, em muitos casos, surpreendentemente precisos na captura da essência dos personagens, mesmo em cenários inusitados.
A OpenAI anunciou que o DALL-E 3 será integrado nativamente ao ChatGPT para clientes Plus e Enterprise em breve. Essa integração permitirá que o ChatGPT atue como um parceiro de brainstorming, ajudando a refinar prompts e gerar imagens diretamente na interface de conversação. A combinação do DALL-E 3 com as capacidades do modelo GPT-4 Vision promete uma sinergia poderosa para a criação multimodal.
A chegada do DALL-E 3 e sua disponibilização gratuita através do Bing Image Creator e Bing Chat marca um momento excitante para a comunidade de IA e para criadores de conteúdo em geral. A qualidade das imagens geradas, a melhor compreensão de prompts complexos e a capacidade de renderizar texto de forma eficaz colocam o DALL-E 3 em uma posição de destaque. Com a possibilidade de uso comercial e plataformas como a Wirestock facilitando a monetização, nunca houve um momento melhor para explorar o potencial criativo da inteligência artificial na geração de imagens. Vá em frente, experimente e veja por si mesmo o que o DALL-E 3 pode fazer!
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.