A OpenAI continua a expandir as fronteiras da inteligência artificial, desta vez com o lançamento de um novo e impressionante modelo de conversão de texto em fala (Text-to-Speech, TTS): o GPT-4o mini TTS. Anunciado em 20 de março de 2025, este modelo promete revolucionar a forma como interagimos com agentes de voz e consumimos conteúdo de áudio, oferecendo um nível de realismo e expressividade sem precedentes.
O GPT-4o mini TTS é o mais recente modelo de áudio da OpenAI, construído sobre a poderosa arquitetura do GPT-4o mini. Projetado para converter texto em fala com sonoridade natural, este modelo está agora disponível para desenvolvedores em todo o mundo através da API. De acordo com a OpenAI, o grande diferencial do GPT-4o mini TTS reside na sua "melhor capacidade de direcionamento" (steerability), permitindo aos desenvolvedores instruir o modelo não apenas sobre o que dizer, mas também sobre como dizer, abrindo portas para experiências de áudio mais personalizadas e imersivas, desde atendimento ao cliente até narração criativa de histórias.
Para demonstrar o potencial do novo modelo, a OpenAI disponibilizou uma plataforma interativa em openai.fm. Nela, os usuários podem experimentar diversas vozes predefinidas, como Alloy, Ash, Ballad, Coral, Echo, Fable, Onyx, Nova, Sage, Shimmer e Verse. Além disso, é possível influenciar a "vibe" da voz através de prompts de sistema, que descrevem o tom, entrega, sotaque e outras características desejadas.
A demonstração exibe uma gama impressionante de estilos e emoções. É possível ouvir vozes interpretando um pirata clássico, uma pessoa nervosa antes de uma apresentação, com um tom sarcástico, demonstrando tristeza profunda, ou mesmo com sotaques específicos, como o indiano. A capacidade do modelo de sussurrar usando a tag [whisper]
ou gritar com [screaming]
também é notável, assim como a interpretação de sons não-verbais, como os de alguém andando numa montanha russa acidentada.
O GPT-4o mini TTS da OpenAI não é apenas sobre gerar fala; é sobre gerar fala que soa humana, com todas as suas nuances e complexidades.
Um dos pontos mais fortes do modelo é sua capacidade de incorporar uma vasta gama de expressividade e emoções. Seja tristeza, excitação, raiva, medo ou sarcasmo, o GPT-4o mini TTS consegue modular a voz de forma convincente. Isso é alcançado através da combinação da voz base selecionada com descrições detalhadas no prompt do sistema, como
Domine o MidJourney 7 e revolucione sua fotografia IA! Aprenda a gerar prompts com ImagePrompt.org e aplicar técnicas fotográficas para resultados impressionantes.
Descubra como a voz IA está revolucionando a comunicação e conheça os planos ilimitados da Voicefy. Melhore a eficiência, acessibilidade e personalização das suas interações com a nossa tecnologia avançada.
Veja o GPT-4o em ação! Este vídeo demonstra como a nova IA da OpenAI resolve problemas matemáticos complexos com facilidade e precisão.