Imagine conversar com uma Inteligência Artificial (IA) que não apenas ouve em tempo real, mas também interrompe quando você fala, acessa dados ao vivo e executa tarefas em seu nome. Este cenário, que parece saído de um filme de ficção científica, está se tornando cada vez mais tangível graças a avanços em tecnologias como LiveKit, servidores MCP (Multi-Agent Communication Protocol) e modelos de linguagem sofisticados. Neste guia, exploraremos como configurar agentes de voz avançados, capazes de interagir de forma natural e acessar conhecimento externo, transformando a maneira como interagimos com a tecnologia.
A inspiração para este guia vem de um vídeo demonstrativo que detalha a configuração desses agentes. O desenvolvedor do vídeo baseou-se em um projeto de código aberto criado por Santiago (@svpino), que utilizou Python, LiveKit para orquestração, Cartesia para conversão de texto em fala, OpenAI para conversão de voz em texto e o modelo GPT-4o-mini como o cérebro do agente. O vídeo expande essa base, demonstrando como integrar servidores MCP para dar aos agentes acesso a ferramentas e conhecimentos externos, como o WhatsApp.
A configuração de um agente de voz com IA, embora pareça complexa, pode ser simplificada seguindo alguns passos essenciais. O processo envolve a clonagem de um repositório, configuração de ambiente e obtenção de chaves de API.
O primeiro passo é clonar o repositório base do projeto, o cartesia-demo, disponível no GitHub. Após clonar, navegue para a pasta do projeto.
Para o ambiente de desenvolvimento, o vídeo sugere o uso do Cursor, um editor de código focado em IA. Dentro do Cursor, crie um ambiente Python. É importante notar que este projeto utiliza UV, um instalador e resolvedor Python rápido, em vez do tradicional pip. Será necessário executar o comando uv sync
no terminal para instalar as dependências listadas no arquivo pyproject.toml
.
Para que o agente de voz funcione, é crucial configurar as variáveis de ambiente com as chaves de API necessárias. Crie um arquivo .env
na raiz do projeto e adicione as seguintes chaves:
LIVEKIT_URL
LIVEKIT_API_KEY
LIVEKIT_API_SECRET
CARTESIA_API_KEY
OPENAI_API_KEY
A chave da OpenAI é obtida facilmente no site da OpenAI. A chave da Cartesia pode ser encontrada no painel da sua conta após o cadastro no site da Cartesia. Para as chaves do LiveKit, acesse o painel do LiveKit Cloud, vá para "Settings" e depois "Keys". Clique na sua chave de API para visualizar o "Websocket URL" (que será seu LIVEKIT_URL
), a "API key" e o "API secret".
Com as chaves configuradas, execute os comandos fornecidos no README do projeto para baixar arquivos necessários e iniciar o agente. O comando principal é uv run python voice.py start
. Após a execução, o terminal fornecerá um link para o LiveKit Agents Playground.
Abra este link no seu navegador. Antes de conectar, certifique-se de ter um projeto criado no seu painel do LiveKit. Selecione o projeto correto no Playground e conecte-se. Se tudo estiver configurado corretamente, você ouvirá o agente de voz cumprimentá-lo.
O arquivo principal que impulsiona este agente de voz é o voice.py
. Ele integra diversos componentes para criar uma experiência de conversação fluida.
A verdadeira potência deste agente de voz reside na sua capacidade de se integrar com servidores MCP (Multi-Agent Communication Protocol) utilizando a biblioteca mcp-use. Essa biblioteca permite que o LLM acesse e utilize ferramentas externas como se fossem funções chamáveis.
O fluxo de interação é o seguinte:
mcp-use
envia essa transcrição para o servidor MCP configurado.mcp-use
, recebe esse resultado e formula uma resposta final.O vídeo demonstra a integração de um servidor MCP do WhatsApp rodando localmente. Ao dar um comando de voz para enviar uma mensagem no WhatsApp para um contato específico (neste caso, a mãe do desenvolvedor), o agente de voz:
Este processo acontece de forma relativamente rápida, com a resposta do agente de voz sendo ouvida quase imediatamente após o processamento da solicitação, que leva alguns segundos. Pequenos erros de transcrição podem ocorrer devido a limitações do modelo Whisper da OpenAI, mas no geral, a funcionalidade é impressionante.
A beleza do sistema MCP é sua flexibilidade. É possível integrar diversos outros agentes MCP, como um para buscar informações em listagens do Airbnb ou um para realizar buscas na internet utilizando o Brave Search. Basta configurar o novo MCP no arquivo de configuração (mcp_config.json
) e o agente de voz poderá interagir com ele, lendo os resultados ou executando ações conforme necessário.
Este projeto demonstra um passo significativo em direção a fluxos de trabalho primordialmente baseados em voz. A capacidade de interrupção natural, a integração com ferramentas externas via MCP e a personalização do comportamento do agente abrem um leque de possibilidades para aplicações em atendimento ao cliente, assistentes pessoais, automação de tarefas e muito mais.
Embora ainda existam desafios, como o aprimoramento do tratamento de interrupções, a natureza de código aberto do projeto e das bibliotecas envolvidas incentiva a colaboração e o desenvolvimento contínuo pela comunidade. Ferramentas como LiveKit, Cartesia e a biblioteca mcp-use
estão democratizando o acesso à criação de agentes de IA sofisticados.
A configuração de um agente de voz com IA, capaz de interações complexas e acesso a dados externos, está mais acessível do que nunca. Seguindo os passos e utilizando as ferramentas apresentadas, como LiveKit para a infraestrutura de comunicação em tempo real, Cartesia para uma conversão de texto em fala de alta qualidade e a biblioteca mcp-use
para integrar funcionalidades externas, desenvolvedores podem criar experiências de voz ricas e dinâmicas. O futuro da interação homem-máquina é, sem dúvida, cada vez mais vocal, e projetos como este nos dão um vislumbre empolgante do que está por vir.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.