Bytedance

Seedream 3.0 da ByteDance: O Novo Rival do GPT-4o na Geração de Imagens por IA?

Xavier

25 Mai 2025 • 8 min read

O universo da inteligência artificial generativa de imagens acaba de ganhar um novo e promissor competidor. A ByteDance, gigante da tecnologia por trás de plataformas como o TikTok, lançou discretamente o Seedream 3.0, seu mais recente modelo de geração de imagens. Este lançamento posiciona a empresa como uma forte concorrente no mercado, especialmente ao ser comparado com modelos de ponta como o GPT-4o da OpenAI. Neste artigo, exploraremos as capacidades do Seedream 3.0, como acessá-lo e uma análise comparativa detalhada com o GPT-4o, utilizando diversos prompts para testar seus limites e potencialidades.

Seedream 3.0: A Nova Aposta da ByteDance no Cenário de Geração de Imagens por IA

A chegada do Seedream 3.0 não foi acompanhada de grande alarde, mas seu impacto já começa a ser sentido. De acordo com um leaderboard independente mantido pela Artificial Analysis, uma plataforma de avaliação de modelos de IA, o Seedream 3.0 apresenta um desempenho que o coloca em pé de igualdade com o renomado GPT-4o. A pontuação ELO de ambos os modelos é extremamente próxima (1155 para o Seedream 3.0 e 1157 para o GPT-4o na data da análise original do vídeo), e, considerando o intervalo de confiança, não há uma diferença estatisticamente significativa entre eles. Isso sugere que a ByteDance desenvolveu uma ferramenta poderosa, capaz de competir diretamente com os líderes do setor.

Como Utilizar o Seedream 3.0 na Plataforma Dreamina da CapCut

Acessar e utilizar o Seedream 3.0 é um processo relativamente simples. A ferramenta está integrada à plataforma Dreamina, que faz parte do ecossistema CapCut, também da ByteDance. Para começar, basta visitar o site dreamina.capcut.com. Na interface, os usuários podem encontrar o gerador de imagens e selecionar o modelo "Image 3.0", que é alimentado pelo Seedream 3.0.

A plataforma oferece diversas opções de personalização, incluindo a escolha da resolução (Padrão/1K, que gera imagens de 1024x1024 ou 1328x1328 pixels dependendo da proporção, e Alta/2K, que pode chegar a 2048x2048 pixels) e diferentes proporções de aspecto (como 1:1, 16:9, 3:2, entre outras). Ao se cadastrar, novos usuários geralmente recebem créditos gratuitos para testar a ferramenta – no vídeo original, foram concedidos 150 créditos diários, com cada geração de imagem (quatro opções por prompt no modelo Image 3.0 em resolução padrão) consumindo 3 créditos.

Análise Comparativa: Seedream 3.0 vs. GPT-4o da OpenAI

Para avaliar o verdadeiro potencial do Seedream 3.0, foram realizados testes com prompts desafiadores, comparando seus resultados diretamente com os do GPT-4o. É importante notar que as comparações foram feitas utilizando a resolução padrão (1K) e proporção 1:1 para ambos os modelos, buscando um comparativo justo.

Geração de Fotos de Anuário Escolar com Seedream 3.0 e GPT-4o

O primeiro prompt testado foi: "Uma página de um anuário escolar com uma grade de fotos de estudantes."

O Seedream 3.0 demonstrou uma excelente capacidade de capturar a estética de um anuário, apresentando variações que lembravam tanto anuários antigos ocidentais quanto versões mais modernas, como anuários escolares asiáticos. As faces dos estudantes eram distintas, com variações em fundos e vestimentas. O principal ponto fraco foi a geração de texto e nomes, que apareceram como caracteres ilegíveis. Contudo, essa imperfeição, paradoxalmente, contribuiu para um visual mais autêntico de um artefato real.

Em contrapartida, o GPT-4o, embora tenha gerado faces com qualidade superior e maior nitidez, produziu imagens que pareciam excessivamente polidas e menos orgânicas para um anuário. A diversidade étnica foi bem representada. No entanto, a estética geral do Seedream 3.0 pareceu mais convincente para este prompt específico, justamente por suas pequenas imperfeições que conferiram um ar de maior realismo.

Criando Cenas Isométricas 3D com Seedream 3.0 e GPT-4o

Um prompt detalhado descrevendo uma cena isométrica 3D de um quarto foi utilizado: "Uma cena isométrica 3D de um quarto. Há um homem sentado em uma cadeira vermelha em uma escrivaninha de madeira, trabalhando em um laptop. Há uma estante branca vazia. Um gato de estimação está enrolado em uma cama cinza com travesseiros brancos. Ao lado da cama, há uma mesa de cabeceira com um abajur e um despertador. A parede é verde-água. Há uma janela com cortinas brancas. Há algumas plantas domésticas. Há um violão pendurado na parede."

O Seedream 3.0 se destacou neste teste, seguindo quase perfeitamente todos os elementos do prompt em suas gerações. A estética isométrica foi bem capturada, e detalhes como a cadeira vermelha, o laptop, a estante vazia (na maioria das vezes), o gato na cama cinza, a mesa de cabeceira com abajur e despertador, a cor da parede, a janela com cortinas e as plantas foram consistentemente representados. Um detalhe notável foi a precisão nos tarraxas do violão (seis, como deveria ser).

O GPT-4o, embora tenha conseguido incluir os elementos, apresentou um resultado menos distintamente isométrico e com uma leve tonalidade amarelada em todas as imagens. Para a criação de cenas isométricas 3D, o Seedream 3.0 demonstrou uma performance superior.

O Desafio da Recursividade: "Pessoa Segurando Foto de Si Mesma" com Seedream 3.0 e GPT-4o

O prompt recursivo "Uma pessoa segurando uma foto de si mesma segurando uma foto de si mesma segurando uma foto de si mesma" (três níveis de profundidade) foi um teste complexo para ambos os modelos.

O Seedream 3.0 conseguiu gerar apenas dois níveis de recursividade (a pessoa segurando uma foto de si mesma, que por sua vez segura uma foto). Já o GPT-4o surpreendentemente alcançou quatro níveis de profundidade. Nenhum dos modelos atingiu a perfeição do prompt original, mas o GPT-4o demonstrou uma compreensão mais profunda da recursividade solicitada. Esteticamente, porém, as imagens do Seedream 3.0 foram consideradas mais realistas.

Anatomia Humana em Poses Complexas: Testando Seedream 3.0 e GPT-4o

Para testar a compreensão da anatomia humana, o prompt foi: "Uma mulher fazendo uma parada de mão. Uma perna está dobrada, a outra está estendida."

O Seedream 3.0 conseguiu, em uma de suas quatro gerações, acertar a pose solicitada com precisão. As outras variações não foram tão fiéis. O GPT-4o, por sua vez, não replicou a pose específica com a mesma exatidão, embora a qualidade de detalhes e nitidez de suas imagens seja geralmente superior. Neste caso, o Seedream 3.0 venceu na precisão da pose, enquanto o GPT-4o se destacou na qualidade geral da imagem.

Retratando Pessoas com Foco em Realismo: Seedream 3.0 vs. GPT-4o

O prompt "Uma mulher sentada mostrando as palmas das mãos e as solas dos pés" foi utilizado para avaliar o realismo na representação humana.

O Seedream 3.0 novamente se destacou ao gerar uma imagem que cumpria o prompt com um realismo notável, evitando o aspecto excessivamente "perfeito" que muitas vezes caracteriza imagens geradas por IA. O resultado pareceu mais natural e menos artificial.

O GPT-4o também conseguiu gerar a imagem corretamente, mas com uma estética que, para alguns, pode parecer polida demais, perdendo um pouco da naturalidade de uma fotografia real.

Geração de Personagens de Anime e Celebridades com Seedream 3.0 e GPT-4o

Dois prompts foram usados para testar a capacidade de gerar personagens conhecidos:

"Will Smith, Taylor Swift, Yao Ming e Rainha Elizabeth jantando, todos estão comendo espaguete."
"Naruto Uzumaki, Nezuko Kamado, Goku e Doraemon comendo no McDonald's e bebendo Coca-Cola."

Para o primeiro prompt, o Seedream 3.0 produziu uma interpretação interessante, reconhecendo a altura de Yao Ming e obtendo uma boa semelhança para Taylor Swift e a Rainha Elizabeth. A representação de Will Smith foi aceitável. Houve pequenas falhas, como o uso incorreto de hashis por Yao Ming e a forma como ele segurava o espaguete. O GPT-4o, no entanto, recusou-se a gerar a imagem, alegando violação de suas políticas, o que confere uma vantagem ao Seedream 3.0 em termos de menor censura para figuras públicas.

No segundo prompt, o Seedream 3.0 conseguiu representar Naruto, Goku e Doraemon com bastante precisão, incluindo os logotipos do McDonald's e da Coca-Cola. No entanto, falhou completamente com Nezuko, que foi substituída por uma personagem genérica com cabelo rosa, lembrando mais a Sakura de Naruto. O GPT-4o, por outro lado, acertou todos os quatro personagens com perfeição, demonstrando superioridade na precisão de personagens fictícios de anime.

Fotos Amadoras e de Baixa Qualidade: Seedream 3.0 versus GPT-4o

O prompt "Uma adolescente segurando um bilhete escrito à mão que diz 'verifique-me 17/04/2025'. Foto selfie de baixa qualidade, iluminação ruim, amadora." testou a capacidade de gerar imagens com uma estética específica de baixa qualidade.

O Seedream 3.0 produziu um resultado bom, capturando a estética amadora e de baixa qualidade, com o texto no bilhete razoavelmente legível, embora não perfeito.

O GPT-4o, neste caso, superou o Seedream 3.0, gerando uma imagem ainda mais convincente no quesito "baixa qualidade amadora". O resultado foi mais granulado, com texto manuscrito mais realista e até mesmo a adição de acne no rosto da adolescente, detalhes que contribuíram para a autenticidade do estilo solicitado.

Pôsteres e Textos Específicos com Seedream 3.0 e GPT-4o

Dois prompts focados em texto e design gráfico foram testados:

"Pôster de filme. O pôster apresenta iluminação cinematográfica sombria e cenas de rua de Hong Kong dos anos 1960. Caligrafia chinesa elegante soletra o título '花樣年華' ao lado do texto em inglês 'In the Mood for Love'."
"Estilo de arte vetorial plana. Um pôster para a seguinte clínica de terapia: 'MindWell Therapy' 'Sentindo-se Preso?' 'A clareza começa aqui' 'Sessão gratuita de 15 minutos' '[AGENDE AGORA!]'" (com quebras de linha indicadas).

Para o pôster de filme, o Seedream 3.0 criou uma imagem que realmente se assemelhava a um pôster, com os títulos em chinês e inglês corretos e uma boa atmosfera de Hong Kong dos anos 60. Outros textos menores eram ilegíveis. O GPT-4o também acertou os textos e a cena, mas seu resultado pareceu menos com um design de "pôster de filme" e mais com uma imagem genérica.

No prompt do pôster de terapia, o Seedream 3.0 conseguiu gerar todo o texto corretamente e aplicou bem o estilo de arte vetorial plana. O GPT-4o também foi bem-sucedido na geração do texto, e alguns podem preferir seu design geral de pôster. Uma vantagem do GPT-4o é sua capacidade de gerar imagens com fundo transparente, útil para design gráfico.

Recursos Adicionais do Seedream 3.0: Edição com Referência

O Seedream 3.0, ou mais precisamente a plataforma Dreamina, oferece um recurso de imagem de referência, similar ao ControlNet, que permite aplicar elementos de uma imagem existente a uma nova geração. É possível selecionar o que referenciar: objeto, face humana, personagem, bordas (edge map), profundidade (depth map) ou pose.

Há também uma funcionalidade "Custom" que permite editar uma imagem de referência usando prompts de texto. No entanto, no momento da gravação do vídeo, este recurso específico utilizava o modelo Seedream 2.0, e não o mais recente 3.0. Ao tentar transformar a imagem do jantar de celebridades em estilo Studio Ghibli usando essa função, o resultado com Seedream 2.0 foi apenas razoável. O GPT-4o, em comparação, demonstrou ser mais eficaz em transferir estilos artísticos a partir de uma imagem de entrada.

Veredito Final: Seedream 3.0 da ByteDance Vale a Pena?

O Seedream 3.0 da ByteDance se apresenta como uma ferramenta de geração de imagens por IA extremamente competente e rápida. A velocidade de geração é um grande diferencial, produzindo quatro opções de imagem em cerca de 10 segundos, em contraste com os 3 a 5 minutos que o GPT-4o pode levar para gerar duas imagens. Além disso, o Seedream 3.0 demonstra uma notável capacidade de gerar fotos com aspecto realista e diversos estilos artísticos, como ilustrações de anime, estilo Pixar 3D, esboços a lápis e pinturas no estilo Monet.

Outro ponto forte é sua menor restrição em relação à censura de figuras públicas existentes, permitindo maior liberdade criativa em comparação com o GPT-4o. No entanto, quando se trata de gerar trechos longos de texto ou layouts complexos com texto, o GPT-4o ainda leva vantagem. A precisão na geração de personagens fictícios específicos, como Nezuko, também pode ser um ponto onde o Seedream 3.0 precisa evoluir para alcançar o nível do GPT-4o. O recurso de imagem de referência, embora promissor, ainda utiliza a versão anterior do modelo.

Em resumo, o Seedream 3.0 é, sem dúvida, um forte concorrente no mercado de IA generativa. Sua qualidade de imagem, como indicado pela Artificial Analysis, rivaliza com o GPT-4o. Para tarefas que exigem velocidade, realismo fotográfico com um toque de imperfeição natural, ou estilos artísticos específicos, o Seedream 3.0 pode ser a melhor escolha. Para prompts que dependem fortemente de texto preciso ou da representação exata de múltiplos personagens fictícios conhecidos, o GPT-4o ainda parece ter uma ligeira vantagem. A escolha entre eles dependerá, em última análise, das necessidades específicas de cada usuário e do tipo de imagem desejada.

Este artigo foi parcialmente patrocinado por Monica AI, uma assistente de IA que fornece acesso às melhores ferramentas de IA em um só lugar.