A clonagem de voz com Inteligência Artificial (IA) tornou-se uma área fascinante e acessível, permitindo a criação de covers musicais, dublagens personalizadas e uma variedade de outras aplicações criativas. No centro de muitas dessas inovações está o RVC (Retrieval-based Voice Conversion), um modelo de IA que se destacou como padrão ouro para conversão e clonagem de voz. Este artigo explora como treinar seus próprios modelos de voz RVC de forma totalmente gratuita e online, utilizando o Google Colab, mesmo sem um computador potente ou uma placa de vídeo (GPU) dedicada.
RVC, ou Conversão de Voz Baseada em Recuperação, é um framework de código aberto que permite clonar uma voz a partir de amostras de áudio. Sua popularidade, especialmente da versão RVC v2, deve-se à alta qualidade dos modelos gerados e à sua natureza gratuita. Com o RVC, é possível treinar um modelo de voz de si mesmo, de uma celebridade como Selena Gomez ou Taylor Swift, ou até mesmo de personagens fictícios como o Bob Esponja, desde que se tenha áudio de boa qualidade da voz desejada. Muitos dos covers de IA que vemos online são criados usando essa tecnologia.
Tradicionalmente, treinar um modelo de IA como o RVC exigiria um computador com especificações robustas, incluindo uma GPU NVIDIA com CUDA para processamento. Além disso, a instalação local do RVC pode ser complexa para usuários menos experientes.
O Google Colab oferece uma alternativa online, permitindo o uso de GPUs na nuvem. No entanto, a versão gratuita do Colab impôs restrições ao uso de interfaces gráficas (GUIs) como as utilizadas por muitas implementações do RVC. Isso significa que tentativas de rodar o RVC com sua interface gráfica usual no Colab gratuito frequentemente resultam em desconexões rápidas, como o vídeo demonstra com o erro 'Runtime disconnected'.
A comunidade de IA desenvolveu uma solução engenhosa para contornar essas limitações: um notebook do Google Colab específico, chamado 'RVC v2 Disconnected'. Este notebook, desenvolvido por entusiastas como Kit Lemonfoot e Noel Shirogane's High Flying Birds, permite treinar modelos RVC inteiramente através de código, sem depender da interface gráfica que causa problemas no plano gratuito do Colab. É importante notar que este notebook é projetado para treinamento, não para inferência (conversão de voz para voz), que pode ser feita localmente mesmo em CPUs menos potentes.
Para começar, você precisará de uma conta Google e acesso ao Google Drive, pois o notebook irá interagir com ele para salvar e carregar arquivos.
A qualidade do seu modelo de voz RVC depende crucialmente da qualidade e quantidade do áudio de treinamento. Recomenda-se pelo menos 5 minutos de áudio claro e limpo da voz que você deseja clonar. Siga estes passos:
O notebook é dividido em células de código que devem ser executadas sequencialmente.
Dependências: Execute a primeira célula para instalar todas as bibliotecas e pacotes necessários. Este processo pode levar alguns minutos.
Conectar ao Google Drive: O notebook solicitará permissão para acessar seu Google Drive. Conceda o acesso.
Definir Variáveis de Treinamento:
experiment_name
: Dê um nome ao seu projeto (ex: 'gura_experiment'). Evite espaços ou caracteres especiais, usando underscores (_) se necessário.pretrain_type
: Mantenha 'OV2'.model_architecture
: Mantenha 'v2' para o RVC v2.target_sample_rate
: '40k' é o padrão recomendado.pitch_extraction_algorithm
: 'rmvpe' geralmente oferece a melhor qualidade.pitch_guidance
: Marque esta opção se o modelo de voz for usado para cantar. É recomendado manter ativado mesmo para fala.Carregar Dataset (Pré-processamento):
dataset:
para o nome do seu arquivo ZIP (ex: 'gura.zip').Pré-processamento e Extração de Características: Execute esta célula para que o RVC processe seus áudios, dividindo-os em segmentos menores e extraindo as características vocais.
Salvar Arquivos Pré-processados no Google Drive: Esta etapa salva os dados processados no seu Drive, o que é útil para retomar o treinamento posteriormente.
Treinamento do Índice (Index Training): Execute esta célula. O arquivo de índice ajuda a gerenciar o dataset de treinamento e pode reduzir o 'vazamento de timbre' (timbre leakage).
Treinamento Principal do Modelo RVC:
save_frequency
: Define a frequência (em épocas) com que um snapshot do modelo será salvo. Por exemplo, se total_epochs
for 50 e save_frequency
for 10, o modelo será salvo 5 vezes (na época 10, 20, 30, 40 e 50). Isso é crucial para não perder progresso caso o Colab desconecte.total_epochs
: O número total de iterações de treinamento. Para áudios curtos (menos de 2 minutos como no exemplo do vídeo), 50 épocas podem ser suficientes. Para datasets maiores, mais épocas (ex: 200-500) podem ser necessárias para melhor qualidade.batch_size
: Número de arquivos de áudio processados por época. O padrão 8 é geralmente adequado.Exportar Modelo do Notebook para o Drive: Após o treinamento, execute esta célula para salvar o modelo final (.pth) e outros arquivos relevantes (como os arquivos G e D, importantes para retomar o treinamento) na pasta do seu experimento dentro de 'rvcDisconnected/logs/' no Google Drive.
Sessões longas de treinamento no Google Colab podem ser interrompidas devido à inatividade. O vídeo menciona que não fornecerá um script anti-inatividade, pois isso pode ir contra os termos de serviço do Colab. No entanto, sugere que tais scripts podem ser encontrados na comunidade Colab AI. Uma alternativa é manter a aba do navegador ativa e interagir com ela periodicamente.
Se o treinamento for interrompido ou se você desejar continuar treinando um modelo existente com mais dados ou épocas:
experiment_name
corresponde ao do treinamento anterior.total_epochs
para o novo valor desejado.O arquivo principal do seu modelo de voz é o arquivo .pth (ex: 'gura_experiment.pth'). Este arquivo, juntamente com o arquivo de índice (.index) gerado, pode ser usado em interfaces RVC locais (como o Mangio-RVC-Fork mencionado no vídeo) para realizar a conversão de voz. O vídeo demonstra brevemente a importação do modelo treinado e a conversão de uma amostra de voz, mostrando um resultado impressionante mesmo com um dataset de treinamento pequeno.
Treinar modelos de voz IA com RVC no Google Colab usando o notebook 'RVC v2 Disconnected' é uma maneira poderosa e gratuita de explorar a clonagem de voz, mesmo sem hardware especializado. Seguindo os passos detalhados, é possível criar modelos de voz personalizados para diversos fins criativos, abrindo um leque de possibilidades no crescente campo da inteligência artificial generativa de áudio. A chave para modelos de alta qualidade reside na qualidade e quantidade do áudio de treinamento e na configuração adequada dos parâmetros no notebook.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.