A inteligência artificial (IA) tem revolucionado a criação de conteúdo visual, permitindo que qualquer pessoa gere imagens e obras de arte impressionantes com o auxílio de plataformas como Midjourney, Stable Diffusion e DALL-E. Essas ferramentas transformam descrições textuais, conhecidas como prompts, em representações visuais. O desafio, no entanto, reside na elaboração de prompts eficazes. Muitas vezes, temos uma visão clara da imagem que desejamos, mas encontramos dificuldade em traduzir essa visão em palavras que a IA consiga interpretar corretamente para gerar o resultado esperado. É aqui que a tecnologia de "Image to Prompt" (Imagem para Prompt) entra em cena, oferecendo uma solução inovadora: usar a própria IA para analisar uma imagem existente e gerar um prompt descritivo que pode ser usado como ponto de partida para novas criações.
A tecnologia de "Image to Prompt" funciona como um tradutor visual. Se você encontrou uma imagem cujo estilo, composição ou tema o inspira, mas não sabe como descrevê-la para uma IA geradora de arte, essa ferramenta pode ajudar. Ao enviar a imagem para uma plataforma de "Image to Prompt", a IA analisa seus elementos e sugere um prompt textual. Esse prompt pode então ser utilizado diretamente ou modificado para guiar a criação de novas peças de arte, alinhadas com sua visão original. Isso é particularmente útil para explorar estilos artísticos específicos ou capturar a essência de uma obra que lhe agrada.
Uma das ferramentas destacadas para essa finalidade é o modelo Img2Prompt da Methexis-Inc, disponível na plataforma Replicate. O processo é simples: você faz o upload de uma imagem e a ferramenta gera um prompt aproximado, identificando o estilo e os elementos principais. Por exemplo, ao submeter uma arte vibrante de uma mulher com flores e tatuagens (uma obra do artista Laydens da comunidade Midjourney), o Img2Prompt pode sugerir algo como: "a painting of a woman with flowers on her head, a detailed painting by Anna Dittmann, trending on deviantart, pop surrealism, detailed painting, behance hd, deviantart". Este prompt já nos dá pistas valiosas: o conteúdo principal ("mulher com flores na cabeça"), uma possível inspiração artística (Anna Dittmann) e o estilo (pop surrealismo).
Outra opção poderosa, embora um pouco mais lenta, é o CLIP Interrogator, que pode ser executado através do Google Colab. A vantagem é que não requer instalação local; basta seguir o link e executar os blocos de código. O CLIP Interrogator é conhecido por gerar prompts mais descritivos, pois analisa diversos aspectos da imagem, como artistas, "sabores" (estilos sutis), mídias utilizadas e tendências. Após o processamento, ele oferece uma interface onde você pode enviar a imagem e escolher entre modos de resultado como "best" (melhor), "classic" (clássico) ou "fast" (rápido). Utilizando a mesma imagem de Laydens, o CLIP Interrogator também identificou Anna Dittmann como inspiração e adicionou detalhes como "red-yellow colors, golden face tattoos, full dynamic colour, close up character, realistic face and body hybrid, with colourful intricate, face icon, punk woman", percebendo o aspecto "punk" devido às tatuagens. A menção a Anna Dittmann por ambas as ferramentas sugere uma forte semelhança estilística, o que se confirma ao visitar o portfólio da artista, repleto de ilustrações com elementos florais e um tratamento visual etéreo.
A verdadeira prova da eficácia dessas ferramentas de "Image to Prompt" está em utilizar os prompts gerados nas principais plataformas de IA para criação de imagens.
Ao inserir o prompt do Img2Prompt no Midjourney, os resultados capturam o conteúdo (mulher com flores), mas o estilo e as cores podem não ser idênticos à imagem original de referência. Isso demonstra que, embora o prompt forneça uma boa base, a interpretação da IA e a ausência de uma referência visual direta podem levar a variações.
O Midjourney permite o uso de uma URL de imagem como referência visual, além do prompt textual. Ao combinar a URL da imagem original de Laydens com o prompt do Img2Prompt e ajustar o parâmetro "image weight" (--iw
), que define a importância da imagem de referência, os resultados tendem a se aproximar mais do estilo e cores desejados, mas ainda com a liberdade criativa da IA.
O prompt mais detalhado do CLIP Interrogator, mesmo sem referência de imagem, pode produzir resultados no Midjourney que se aproximam bastante da imagem original, especialmente em termos de cores e elementos como as tatuagens e flores, reforçando a qualidade da descrição gerada por esta ferramenta.
No DreamStudio (interface para Stable Diffusion), o prompt do CLIP Interrogator também gera imagens notavelmente similares à original, especialmente ao se utilizar a funcionalidade de enviar uma imagem de referência e ajustar o controle de "Image Strength". Com uma força de imagem menor (ex: 15-30%), a IA tem mais liberdade para reinterpretar o prompt, mantendo a essência da referência, mas criando variações interessantes.
O DALL-E, ao receber o prompt do CLIP Interrogator, também produz resultados impressionantes e artisticamente ricos, demonstrando a versatilidade do prompt gerado em diferentes plataformas, embora cada uma imprima sua assinatura estilística única.
A tecnologia de "Image to Prompt" é uma ferramenta poderosa para artistas e entusiastas da IA. Ela pode desbloquear novas avenidas criativas, ajudar a entender os estilos de artistas admirados e servir como um excelente ponto de partida. No entanto, é crucial utilizar essa tecnologia com responsabilidade. A linha entre inspiração e cópia pode ser tênue. O ideal é usar os prompts gerados como base para desenvolver algo novo e original, modificando-os para refletir sua própria voz e visão artística, em vez de simplesmente replicar o trabalho de outros. Como aponta o vídeo, o objetivo não é roubar, mas sim se inspirar.
As ferramentas de "Image to Prompt" representam um avanço significativo no ecossistema da arte gerada por IA. Elas democratizam ainda mais o acesso à criação visual, permitindo que usuários com diferentes níveis de habilidade em escrita de prompts possam explorar e materializar suas ideias. Seja utilizando o rápido Img2Prompt da Replicate para ideias ágeis ou o mais detalhado CLIP Interrogator para descrições profundas, a capacidade de transformar uma imagem em um prompt textual abre um leque de possibilidades para a experimentação e inovação artística. O futuro da criação assistida por IA é promissor, e essas ferramentas são apenas o começo.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.