Mangio-RVC-Fork v2: Guia Completo para Conversão de Voz com IA, Criação de Covers e Treinamento de Modelos

Mizael Xavier

26 Mai 2025 • 8 min read

Mangio-RVC-Fork v2: Revolucione sua Criação de Áudio com Inteligência Artificial

A capacidade de manipular e criar áudio com Inteligência Artificial (IA) atingiu um novo patamar com ferramentas como o Mangio-RVC-Fork. Este software gratuito e de código aberto oferece um leque impressionante de funcionalidades, incluindo conversões de voz ilimitadas, criação de covers musicais e o treinamento de seus próprios modelos de voz personalizados. Se você deseja transformar sua voz na de uma celebridade como MrBeast, extrair vocais e instrumentais de músicas ou até mesmo treinar um modelo de IA com a voz de personagens como Gawr Gura, o Mangio-RVC-Fork v2 é a ferramenta ideal.

Este guia detalhado explorará como instalar e utilizar o Mangio-RVC-Fork v2 em seu computador local, uma alternativa cada vez mais necessária devido às restrições impostas por plataformas como o Google Colab ao uso de clonagem de voz. Além disso, abordaremos as novidades da versão 2 e como aproveitar ao máximo seus recursos.

O que é o Mangio-RVC-Fork e Por Que Usá-lo?

O Mangio-RVC-Fork é uma ferramenta baseada em Retrieval-based Voice Conversion (RVC), uma técnica de IA que permite a conversão de características vocais de um áudio para outro. A versão 2, também conhecida como The Mangio-RVC-Fork, traz melhorias significativas em relação à sua predecessora, oferecendo mais controle e qualidade nas manipulações de áudio.

Vantagens do Mangio-RVC-Fork v2

Optar pelo Mangio-RVC-Fork v2 traz diversos benefícios:

Gratuito e Open Source: Acesso completo à ferramenta sem custos, com a liberdade de modificação e distribuição (respeitando a licença MIT License).
Execução Local: Maior controle sobre o processo, sem depender de plataformas online que podem restringir o uso, como o Google Colab tem feito com aplicações de clonagem de voz. A execução local garante privacidade e uso ilimitado dos recursos.
Novos Recursos Poderosos: A versão 2 inclui algoritmos aprimorados como o RMVPE para extração de pitch e a funcionalidade experimental de Formant Shift, que permite ajustes mais finos no timbre da voz convertida.
Não Requer GPU para Todas as Funções: Embora o treinamento de modelos se beneficie enormemente de uma GPU NVIDIA, muitas funcionalidades, como a conversão de voz básica, podem ser executadas sem ela.

Guia Completo de Instalação do Mangio-RVC-Fork v2 no seu Computador

A instalação local do Mangio-RVC-Fork v2 é um processo direto. Siga os passos abaixo para começar.

Pré-requisitos e Tipos de Instalação do Mangio-RVC-Fork

Antes de iniciar, é importante entender as opções de download. No repositório oficial do Mangio-RVC-Fork no GitHub, você encontrará duas versões principais do pacote:

Infer: Esta é a versão mais leve, focada apenas na inferência, ou seja, na conversão de voz. Não inclui as ferramentas para treinar seus próprios modelos. Ideal se você não possui uma GPU NVIDIA ou não pretende criar modelos do zero. O download é de aproximadamente 2.55GB.
Infer Train: Esta versão completa inclui tanto os pesos para inferência quanto o pacote completo para criação e treinamento de modelos de voz. Requer uma GPU NVIDIA para o treinamento. O download é mais robusto, com cerca de 4.7GB.

Para este tutorial, focaremos na instalação da versão completa (Infer Train) para explorar todas as funcionalidades.

Passo a Passo da Instalação Local do Mangio-RVC-Fork

Acesse o Repositório: Vá para a página de releases do Mangio-RVC-Fork no GitHub.
Organize seus Arquivos: Crie uma nova pasta em seu computador (ex: D:\RVC) para manter todos os arquivos do Mangio-RVC-Fork organizados.
Baixe o Instalador: Na seção 'Assets' da última release, localize e baixe o arquivo INSTALL_Mangio-RVC-v23.7.0_INFER_TRAIN.bat (o nome pode variar ligeiramente dependendo da versão mais recente). Salve este arquivo na pasta que você criou.
Execute o Instalador: Abra o arquivo .bat que você baixou. Uma janela do prompt de comando será exibida, iniciando o download do pacote completo (aproximadamente 4.7GB). Este processo pode levar algum tempo dependendo da sua conexão com a internet.
Extraia os Arquivos: Após o download, um arquivo .7z (ex: Mangio-RVC-v23.7.0_INFER_TRAIN.7z) aparecerá na sua pasta. Você precisará de um programa como o WinRAR para extrair o conteúdo deste arquivo. Clique com o botão direito sobre o arquivo .7z e extraia-o para a pasta RVC principal. Este processo também pode demorar alguns minutos devido ao grande número de arquivos (mais de 60.000).
Inicie a Interface: Após a extração, abra a pasta resultante (ex: Mangio-RVC-v23.7.0) e execute o arquivo go-web.bat. Isso iniciará a interface do Mangio-RVC-Fork, que será aberta automaticamente no seu navegador padrão (geralmente em http://localhost:7897).

Visão Geral da Interface do Mangio-RVC-Fork

A interface do Mangio-RVC-Fork é organizada em várias abas, cada uma dedicada a uma funcionalidade específica:

Model Inference (Inferência de Modelo): Usada para converter sua voz ou qualquer áudio para a voz de um modelo de IA pré-existente ou treinado por você.
Vocals/Accompaniment Separation & Reverberation Removal (Separação de Vocais/Acompanhamento e Remoção de Reverberação): Permite separar os vocais dos instrumentais de uma música e remover o efeito de reverberação (eco).
Train (Treinamento): Onde você pode treinar seus próprios modelos de voz de IA a partir de amostras de áudio.
Outras Abas: Incluem ckpt Processing (processamento de checkpoints), Export Onnx (para exportar modelos em formato ONNX) e FAQ (perguntas frequentes), que podem ser úteis para usuários avançados ou para solucionar problemas.

Como Realizar a Conversão de Voz com o Mangio-RVC-Fork

Transformar sua voz é um dos principais atrativos do Mangio-RVC-Fork. Veja como fazer:

Selecionando o Modelo de Voz e o Áudio de Entrada no Mangio-RVC-Fork

Escolha o Modelo de Inferência: Na aba 'Model Inference', clique em 'Refresh voice list, index path and audio files'. No menu suspenso 'Inferencing voice:', selecione o modelo de voz desejado. Você pode baixar modelos de diversas fontes online, como o voice-models.com (se disponível e confiável) ou comunidades dedicadas. Para este exemplo, vamos supor que você baixou um modelo do MrBeast (Mr.Beast.pth) e o colocou na pasta Mangio-RVC-v23.7.0\weights.
Forneça o Áudio de Entrada: No campo 'Add audio's name to the path to the audio file to be processed', insira o caminho completo para o arquivo de áudio que você deseja converter. Por exemplo, se você gravou sua voz e salvou como my_recording.wav na pasta Mangio-RVC-v23.7.0\audios, o caminho seria algo como D:/RVC/Mangio-RVC-v23.7.0/audios/my_recording.wav. Alternativamente, você pode arrastar e soltar o arquivo na área indicada.
Ajuste de Transposição (Transpose): Este valor (em semitons) altera o tom da voz de saída. Para conversões de homem para mulher, valores positivos como +8 a +12 são comuns. Para mulher para homem, valores negativos como -8 a -12. Para homem para homem ou mulher para mulher, geralmente 0 é adequado. Para o exemplo do MrBeast, mantemos 0.

Configurações Avançadas para Melhorar a Qualidade da Conversão de Voz com Mangio-RVC-Fork

Search Feature Ratio (Taxa de Busca de Características): Controla o quão próximo o timbre da voz de saída será do modelo original. Valores mais altos podem resultar em mais artefatos. O padrão é 0.75.
Pitch Extraction Algorithm (Algoritmo de Extração de Tom): RMVPE é geralmente a melhor opção para qualidade, embora possa ser mais lento. PM é mais rápido, mas com menor qualidade.
Formant Shift (Experimental): Permite ajustar o formante, o que pode ajudar em conversões entre gêneros, tornando a voz mais masculina ou feminina. Use com cautela.

Após configurar, clique em 'Convert'. O áudio processado aparecerá na parte inferior, pronto para ser ouvido ou baixado.

Conversão em Lote com Mangio-RVC-Fork

A ferramenta também permite a conversão de múltiplos arquivos de áudio de uma vez. Em vez de fornecer o caminho para um único arquivo, você pode especificar uma pasta contendo todos os áudios a serem convertidos.

Separando Vocais e Instrumentais de Músicas com Mangio-RVC-Fork

A aba 'Vocals/Accompaniment Separation & Reverberation Removal' utiliza modelos baseados no UVR5 (Ultimate Vocal Remover 5) para isolar vocais e instrumentais.

Utilizando a Aba de Separação de Vocais do Mangio-RVC-Fork

Insira o Caminho do Áudio: Digite o caminho do arquivo de áudio da música que deseja processar ou arraste e solte o arquivo.
Escolha o Modelo: Selecione um modelo no menu suspenso. Modelos como HP2 e HP3 são bons para preservar vocais, enquanto HP5 é melhor se a música tiver muitas harmonias vocais. Outros modelos como MDX-Net e DeEcho são para remoção de reverberação.
Especifique as Pastas de Saída: Indique onde os vocais e instrumentais separados devem ser salvos (o padrão é 'opt').
Formato de Exportação: Escolha o formato desejado (WAV, FLAC, MP3, etc.).
Clique em 'Convert': Os arquivos separados serão gerados nas pastas especificadas.

Treinando Seus Próprios Modelos de Voz com Mangio-RVC-Fork

A capacidade de criar seus próprios modelos de voz é uma das funcionalidades mais poderosas do Mangio-RVC-Fork.

Preparando os Dados para o Treinamento do Modelo de Voz com Mangio-RVC-Fork

Nome do Experimento: Na aba 'Train', dê um nome ao seu projeto (ex: 'gura').
Taxa de Amostragem e Guia de Tom: Defina a 'Target sample rate' (geralmente 40k ou 48k). Marque 'Whether the model has pitch guidance' se seu áudio de treinamento for cantado; é opcional para fala.
Versão do Modelo: Escolha v2, que é mais recente e compatível com outras plataformas.
Caminho da Pasta de Treinamento: Crie uma pasta separada em seu computador (ex: D:/RVC/Mangio-RVC-v23.7.0/datasets/gura_dataset) e coloque nela todos os arquivos de áudio limpos (sem ruído de fundo, apenas a voz desejada) que você usará para treinar o modelo. O ideal é ter pelo menos 10-15 minutos de áudio de alta qualidade. Insira o caminho para esta pasta no campo 'Enter the path of the training folder'.

Processando os Dados e Extraindo Características com Mangio-RVC-Fork

Process Data: Clique neste botão. O Mangio-RVC-Fork processará seus arquivos de áudio, normalizando-os e preparando-os para o treinamento.
Feature Extraction: Após o processamento dos dados, escolha um 'Pitch extraction algorithm' (RMVPE é recomendado) e clique em 'Feature extraction'. Isso extrairá as características vocais do seu dataset.

Configurando e Iniciando o Treinamento do Modelo de Voz com Mangio-RVC-Fork

Total Training Epochs (Épocas Totais de Treinamento): Define quantas vezes o modelo passará por todo o seu dataset. Para datasets pequenos (como 2-3 minutos), 50-100 épocas podem ser suficientes. Para datasets maiores, mais épocas podem ser necessárias, mas cuidado com o overfitting (quando o modelo se ajusta demais aos dados de treinamento e perde a capacidade de generalizar).
Save Frequency (Frequência de Salvamento): Define a cada quantas épocas um checkpoint do modelo será salvo.
Batch Size per GPU: Quantas amostras serão processadas por vez. Ajuste conforme a VRAM da sua GPU (geralmente entre 2 e 10).
Outras Opções:
- 'Whether to save only the latest .ckpt file': Economiza espaço em disco salvando apenas o último checkpoint.
- 'Cache all training sets to GPU memory': Pode acelerar o treinamento para datasets pequenos, mas consome muita VRAM.
- 'Save a small final model to the 'weights' folder at each save point': Útil para testar o modelo durante o treinamento.
Train Model e Train Feature Index: Primeiro, clique em 'Train Feature Index'. Quando concluído, clique em 'Train model'. O processo de treinamento começará e você poderá acompanhar o progresso na janela do prompt de comando.

Usando o Modelo de Voz Treinado (Ex: Gura)

Após o treinamento, o modelo final (.pth) e o arquivo de índice (.index) estarão na pasta Mangio-RVC-v23.7.0\logs\nome_do_experimento e também uma cópia do .pth na pasta weights. Agora você pode selecioná-lo na aba 'Model Inference' para converter áudios para a voz treinada, como a de Gawr Gura.

Conclusão: Explorando o Potencial do Mangio-RVC-Fork para Criação de Conteúdo

O Mangio-RVC-Fork v2 é uma ferramenta incrivelmente versátil e poderosa para qualquer pessoa interessada em conversão de voz, criação de covers ou desenvolvimento de modelos de IA de voz personalizados. Sua natureza gratuita e open-source, combinada com a capacidade de execução local, o torna uma opção acessível e segura.

Desde a simples conversão de voz para entretenimento até a criação de vocais para músicas ou o desenvolvimento de vozes únicas para projetos, as possibilidades são vastas. É fundamental, no entanto, utilizar essa tecnologia de forma ética e responsável, respeitando os direitos autorais e a privacidade alheia.

Com este guia, esperamos que você esteja pronto para explorar o mundo da manipulação de áudio com IA usando o Mangio-RVC-Fork e liberar sua criatividade.