ElevenLabs Lança API de Speech-to-Text Revolucionária com Precisão Inigualável em 99 Idiomas

Mizael Xavier

27 Mai 2025 — 4 min read

ElevenLabs Lança API de Speech-to-Text Revolucionária com Precisão Inigualável em 99 Idiomas

A ElevenLabs, empresa reconhecida por suas inovações em inteligência artificial generativa de áudio, anunciou recentemente o lançamento de seu mais novo produto: uma API de Speech-to-Text (ASR - Automatic Speech Recognition) que promete ser a mais precisa do mundo. Este modelo de reconhecimento de fala alcança uma precisão líder de mercado em 99 idiomas, oferecendo uma gama de funcionalidades avançadas.

Conhecendo a Nova API de Speech-to-Text da ElevenLabs

A nova API de Speech-to-Text da ElevenLabs, denominada Scribe, não se destaca apenas pela sua vasta cobertura linguística, mas também por recursos como timestamps em nível de caractere, diarização de locutor (identificação de quem está falando) e marcação de eventos de áudio. Tudo isso é entregue em uma resposta de API estruturada, facilitando a integração em diversas aplicações.

A empresa demonstra a capacidade de sua tecnologia através de exemplos práticos, como um bot de transcrição para o Telegram. Este bot é capaz de transcrever mensagens de voz e até mesmo arquivos de vídeo enviados diretamente na conversa, com uma velocidade e precisão impressionantes.

Desempenho da API de Speech-to-Text da ElevenLabs em Cenários Desafiadores

Um dos pontos altos da demonstração é a capacidade da API de lidar com áudios em ambientes ruidosos. Um exemplo citado é a transcrição de uma mensagem gravada no MRT (Mass Rapid Transit) de Singapura, um local com considerável ruído de fundo. Mesmo nessas condições, a API de Speech-to-Text da ElevenLabs conseguiu transcrever o áudio com clareza.

A versatilidade linguística também é um diferencial. A API transcreve com precisão diferentes idiomas, como inglês, alemão, francês e mandarim, mesmo com variações de sotaque, velocidade de fala e qualidade do microfone. Além disso, a ferramenta identifica e marca eventos de áudio não verbais, como "música animada" (upbeat music) em um vídeo, enriquecendo o contexto da transcrição.

Como Construir um Bot de Transcrição com a API de Speech-to-Text da ElevenLabs e Supabase

Para desenvolvedores interessados em explorar o potencial da API de Speech-to-Text da ElevenLabs, a empresa disponibiliza um guia detalhado para a construção de um bot de transcrição no Telegram. Este guia utiliza TypeScript com Deno em Supabase Edge Functions.

Requisitos para o Desenvolvimento

Antes de iniciar, é necessário ter:

Uma conta na ElevenLabs com uma chave de API.
Uma conta na Supabase (é possível criar uma conta gratuita em database.new).
A CLI da Supabase instalada.
O runtime Deno instalado.
Uma conta no Telegram.

Passos para a Configuração do Bot com a API de Speech-to-Text da ElevenLabs

Registrar um Bot no Telegram: Utilize o BotFather para criar um novo bot no Telegram e obter o token secreto do bot.
Criar um Projeto Supabase Localmente: Inicie um novo projeto Supabase utilizando o comando supabase init.
Criar Tabela no Banco de Dados: Configure uma tabela no banco de dados para armazenar os logs de transcrição. O guia fornece o SQL necessário.
Criar uma Supabase Edge Function: Desenvolva uma Edge Function para lidar com as requisições de webhook do Telegram.
Configurar Variáveis de Ambiente: No diretório da função, crie um arquivo .env e adicione as variáveis necessárias: a chave da API da ElevenLabs, o token do bot do Telegram e um segredo para a função (um valor aleatório para segurança).
Codificar o Bot do Telegram: O código do bot utiliza o framework Grammy para interagir com a API do Telegram, a biblioteca supabase-js para interagir com o banco de dados Supabase, e o SDK JavaScript da ElevenLabs para interagir com a API de Speech-to-Text.
Lógica de Transcrição:

A função recebe o arquivo de áudio/vídeo.
Obtém a URL do arquivo a partir do Telegram.
Busca o arquivo e o converte para um ArrayBuffer.
Cria um Blob a partir do ArrayBuffer, especificando o tipo de arquivo.
Envia o Blob para a API de Speech-to-Text da ElevenLabs para conversão, utilizando o modelo `scribe_v1`.
Recebe o texto transcrito e o código do idioma.
Responde ao usuário no Telegram com a transcrição.
Registra o log da transcrição no banco de dados Supabase.

Execução em Background: Para evitar timeouts, especialmente com arquivos longos, a transcrição é executada em background utilizando EdgeRuntime.waitUntil(). O bot responde imediatamente ao usuário informando que o arquivo foi recebido e está sendo processado.
Testar Localmente: Utilize o ngrok para expor sua função local a uma URL pública e testar a integração com o Telegram.
Configurar o Webhook: Após o deploy para a Supabase, configure o webhook do seu bot no Telegram para apontar para a URL da sua Edge Function, incluindo o segredo da função como parâmetro de URL para autenticação.

Impacto e Potencial da API de Speech-to-Text da ElevenLabs

O lançamento da API de Speech-to-Text da ElevenLabs representa um avanço significativo no campo do reconhecimento de fala. A alta precisão, combinada com o suporte a múltiplos idiomas e funcionalidades como diarização de locutor, abre um leque de possibilidades para desenvolvedores e empresas.

Aplicações em legendagem automática, assistentes virtuais, análise de sentimento em chamadas de voz, ferramentas de acessibilidade e transcrição de reuniões são apenas alguns exemplos do potencial desta tecnologia. A ElevenLabs se consolida cada vez mais como uma força motriz na evolução da inteligência artificial de áudio, oferecendo ferramentas poderosas para a criação de experiências de usuário mais ricas e interativas.

A facilidade de integração, demonstrada pelo exemplo do bot de Telegram com Supabase Edge Functions, também é um fator crucial para a adoção da API por uma ampla comunidade de desenvolvedores. Com esta nova ferramenta, a barreira para implementar funcionalidades avançadas de reconhecimento de fala em aplicações diversas diminui consideravelmente.