Crie Agentes de Voz com IA: Guia Completo com LiveKit, MCP e Cartesia

O Futuro da Interação por Voz: Agentes de IA Avançados

Imagine conversar com uma Inteligência Artificial (IA) que não apenas ouve em tempo real, mas também interrompe quando você fala, acessa dados ao vivo e executa tarefas em seu nome. Este cenário, que parece saído de um filme de ficção científica, está se tornando cada vez mais tangível graças a avanços em tecnologias como LiveKit, servidores MCP (Multi-Agent Communication Protocol) e modelos de linguagem sofisticados. Neste guia, exploraremos como configurar agentes de voz avançados, capazes de interagir de forma natural e acessar conhecimento externo, transformando a maneira como interagimos com a tecnologia.

A inspiração para este guia vem de um vídeo demonstrativo que detalha a configuração desses agentes. O desenvolvedor do vídeo baseou-se em um projeto de código aberto criado por Santiago (@svpino), que utilizou Python, LiveKit para orquestração, Cartesia para conversão de texto em fala, OpenAI para conversão de voz em texto e o modelo GPT-4o-mini como o cérebro do agente. O vídeo expande essa base, demonstrando como integrar servidores MCP para dar aos agentes acesso a ferramentas e conhecimentos externos, como o WhatsApp.

Configurando seu Agente de Voz com IA: Passo a Passo

A configuração de um agente de voz com IA, embora pareça complexa, pode ser simplificada seguindo alguns passos essenciais. O processo envolve a clonagem de um repositório, configuração de ambiente e obtenção de chaves de API.

Preparação do Ambiente e Dependências

O primeiro passo é clonar o repositório base do projeto, o cartesia-demo, disponível no GitHub. Após clonar, navegue para a pasta do projeto.

Para o ambiente de desenvolvimento, o vídeo sugere o uso do Cursor, um editor de código focado em IA. Dentro do Cursor, crie um ambiente Python. É importante notar que este projeto utiliza UV, um instalador e resolvedor Python rápido, em vez do tradicional pip. Será necessário executar o comando uv sync no terminal para instalar as dependências listadas no arquivo pyproject.toml.

Configuração das Chaves de API do Agente de Voz

Para que o agente de voz funcione, é crucial configurar as variáveis de ambiente com as chaves de API necessárias. Crie um arquivo .env na raiz do projeto e adicione as seguintes chaves:

LIVEKIT_URL
LIVEKIT_API_KEY
LIVEKIT_API_SECRET
CARTESIA_API_KEY
OPENAI_API_KEY

A chave da OpenAI é obtida facilmente no site da OpenAI. A chave da Cartesia pode ser encontrada no painel da sua conta após o cadastro no site da Cartesia. Para as chaves do LiveKit, acesse o painel do LiveKit Cloud, vá para "Settings" e depois "Keys". Clique na sua chave de API para visualizar o "Websocket URL" (que será seu LIVEKIT_URL), a "API key" e o "API secret".

Executando o Agente de Voz

Com as chaves configuradas, execute os comandos fornecidos no README do projeto para baixar arquivos necessários e iniciar o agente. O comando principal é uv run python voice.py start. Após a execução, o terminal fornecerá um link para o LiveKit Agents Playground.

Abra este link no seu navegador. Antes de conectar, certifique-se de ter um projeto criado no seu painel do LiveKit. Selecione o projeto correto no Playground e conecte-se. Se tudo estiver configurado corretamente, você ouvirá o agente de voz cumprimentá-lo.

Mecanismos Internos do Agente de Voz com IA

O arquivo principal que impulsiona este agente de voz é o voice.py. Ele integra diversos componentes para criar uma experiência de conversação fluida.

Componentes Essenciais do Agente de Voz

VAD (Voice Activity Detection): Utilizando Silero VAD, este componente detecta atividade de voz, permitindo que o agente pause automaticamente quando o usuário começa a falar. Isso possibilita interrupções naturais durante a conversa, similar aos assistentes de voz mais avançados.
Modelo de Linguagem (LLM): O projeto utiliza o GPT-4o-mini da OpenAI por padrão, mas é possível substituí-lo por modelos mais potentes, como o GPT-4, se respostas mais longas ou detalhadas forem necessárias.
Prompt do Sistema: Define a personalidade e o comportamento do agente. No exemplo, o agente é instruído a ser espirituoso, fornecer respostas curtas e concisas, e evitar pontuações ou emojis de difícil pronúncia, para não causar problemas ao motor de conversão de texto em fala.
Conversão de Texto em Fala (TTS): O agente utiliza o modelo Sonic Preview da Cartesia para gerar a fala. A Cartesia oferece uma API flexível e acessível, com um plano gratuito que fornece 20.000 créditos (suficientes para aproximadamente 25 minutos de áudio a 15 créditos por segundo), tornando-a uma alternativa interessante a serviços como o ElevenLabs.
Mensagem de Boas-vindas: Uma saudação inicial que pode ser personalizada diretamente no código.

Integração com Servidores MCP para Funcionalidades Avançadas

A verdadeira potência deste agente de voz reside na sua capacidade de se integrar com servidores MCP (Multi-Agent Communication Protocol) utilizando a biblioteca mcp-use. Essa biblioteca permite que o LLM acesse e utilize ferramentas externas como se fossem funções chamáveis.

O Fluxo de Trabalho com MCP

O fluxo de interação é o seguinte:

Sua entrada de voz é transcrita.
A biblioteca mcp-use envia essa transcrição para o servidor MCP configurado.
O servidor MCP processa a entrada e, se necessário, aciona uma ferramenta específica (por exemplo, enviar uma mensagem no WhatsApp).
A ferramenta executa a ação e retorna um resultado.
O agente, gerenciado pela mcp-use, recebe esse resultado e formula uma resposta final.
Essa resposta é convertida em fala e reproduzida para você.

Exemplo Prático: Agente de Voz com WhatsApp

O vídeo demonstra a integração de um servidor MCP do WhatsApp rodando localmente. Ao dar um comando de voz para enviar uma mensagem no WhatsApp para um contato específico (neste caso, a mãe do desenvolvedor), o agente de voz:

Transcreve a fala.
Envia a solicitação para o servidor MCP do WhatsApp.
O servidor MCP do WhatsApp utiliza suas ferramentas para enviar a mensagem.
Confirma o envio da mensagem para o agente.
O agente de voz informa ao usuário que a mensagem foi enviada.

Este processo acontece de forma relativamente rápida, com a resposta do agente de voz sendo ouvida quase imediatamente após o processamento da solicitação, que leva alguns segundos. Pequenos erros de transcrição podem ocorrer devido a limitações do modelo Whisper da OpenAI, mas no geral, a funcionalidade é impressionante.

Expandindo as Capacidades do Agente de Voz

A beleza do sistema MCP é sua flexibilidade. É possível integrar diversos outros agentes MCP, como um para buscar informações em listagens do Airbnb ou um para realizar buscas na internet utilizando o Brave Search. Basta configurar o novo MCP no arquivo de configuração (mcp_config.json) e o agente de voz poderá interagir com ele, lendo os resultados ou executando ações conforme necessário.

O Potencial Imenso dos Agentes de Voz com IA

Este projeto demonstra um passo significativo em direção a fluxos de trabalho primordialmente baseados em voz. A capacidade de interrupção natural, a integração com ferramentas externas via MCP e a personalização do comportamento do agente abrem um leque de possibilidades para aplicações em atendimento ao cliente, assistentes pessoais, automação de tarefas e muito mais.

Embora ainda existam desafios, como o aprimoramento do tratamento de interrupções, a natureza de código aberto do projeto e das bibliotecas envolvidas incentiva a colaboração e o desenvolvimento contínuo pela comunidade. Ferramentas como LiveKit, Cartesia e a biblioteca mcp-use estão democratizando o acesso à criação de agentes de IA sofisticados.

Conclusão

A configuração de um agente de voz com IA, capaz de interações complexas e acesso a dados externos, está mais acessível do que nunca. Seguindo os passos e utilizando as ferramentas apresentadas, como LiveKit para a infraestrutura de comunicação em tempo real, Cartesia para uma conversão de texto em fala de alta qualidade e a biblioteca mcp-use para integrar funcionalidades externas, desenvolvedores podem criar experiências de voz ricas e dinâmicas. O futuro da interação homem-máquina é, sem dúvida, cada vez mais vocal, e projetos como este nos dão um vislumbre empolgante do que está por vir.