用 SO-VITS-SVC 打造 AI 歌姬，零基礎也能輕鬆上手-數據預處理

Violet

發佈於AI歌姬

更新於 2024/12/24發佈於 2024/12/24閱讀時間約 11 分鐘

SO-VITS-SVC實戰經驗分享：從零開始打造我的專屬AI歌手

AI唱歌系列之四-數據集預處理與準備訓練

前言：

在使用 SO-VITS-SVC 進行聲音模型訓練時，數據集的準備與預處理是至關重要的步驟。本文將詳細介紹如何進行音訊切片、響度匹配、數據預處理以及訓練參數的設置，幫助你高效完成模型訓練，打造專屬的 AI 歌姬。

1.音頻切片

1-1.命名規範

在切片之前，請將待切片的音訊檔案以純數字、字母、底線命名，避免使用特殊符號，確保文件名規範化。

1-2. 使用WeBUI進行智慧音訊切片

開啟 WebUI -小工具/實驗室特性 -智慧音訊切片。
將包含所有待處理音訊檔案（必須為.wav 格式）的資料夾路徑輸入到原始音訊資料夾 內。
點擊載入原始音訊，確認音訊被正確識別。
輸入切片後的輸出目錄，選擇對過短音訊的處理方式。
開始處理。

1-3. 注意事項

將音訊切片至 5s - 15s , 稍微長點也無傷大雅（不要超過17秒），實在太長可能會導致訓練中途甚至預處理就爆顯存。
推薦使用以下工具進行輔助切片。

只要調整其中的 Minimum Interval ，一般說話素材通常會保持預設即可，歌唱素材可調整至 100 甚至 50。
切完之後請手動處理過長（大於 15 秒）或過短（小於 4 秒）的音頻，過短的音頻可以多段拼接，而過長的音頻可以手動切分。
如果你使用 Whisper-ppg 聲音編碼器來訓練，所有的切片長度必須小於 30s。

2. 響度匹配與重採樣

2-1. 數據集預處理的流程是：

響度匹配 —— 重採樣 —— 產生設定檔 —— 擷取特徵。

2-2. 重採樣至 44100Hz 單聲道：

使用下面的指令（若已經經過響度匹配，請跳過該行看下面的 NOTE）：



1.python resample.py

2-3. 響度匹配的重要性：

注意：雖然 So-VITS 專案自帶響度匹配腳本，但該腳本會將音訊配對到 0db, 這可能會造成音質的受損。最佳的做法是使用專業音訊處理軟體，如Adobe Audition自行將資料集響度配對處理後再進入預處理流程。如果資料集已經完成了響度匹配或啟用了響度嵌入，可以在預處理時跳過程式自帶的響度匹配流程。

2-4. 跳過響度匹配：

可以在執行上述指令時新增 --skip_loudnorm 跳過響度匹配步驟。如：



1.python resample.py --skip_loudnorm

2-5. 上述所有流程在 WebUI 中均可一键完成：

將上一步驟切片完成的數據集資料夾放置到整合包根目錄下dataset_raw資料夾內。

請注意檔案結構：dataset_raw/speaker_name/*.wav。

在 WebUI 訓練標籤中，點選識別數據集，確認數據集被正確識別。
根據說明自行選擇訓練使用的編碼器和 f0 預測器。
如要訓練擴散模型或啟用響度嵌入，請自行勾選。

勾選訓練擴散後將會擷取擴散模型所需的特徵文件，會佔用更多硬碟空間。有關擴散模型的詳細說明，請參考训练参数详解.。

啟用響度嵌入需要選擇 Vec768L12 編碼器，其它編碼器沒有響度嵌入的底模。

點選數據預處理：

資料預處理的輸出資訊中可能存在報錯資訊。如果出現報錯，則代表資料預處理未完成。你可以參考常見報錯和解決方案自行排障。

數據預處理可以多進程執行，但會顯著佔用顯存和内存。建議 6G 以下顯存不要開啟多線程。12G 以下顯存不要將線程數設置為 2 以上。

同一個數據集只需要預處理一次，往後繼續訓練不需要也不可以重新預處理！

提供一個好用的響度匹配工具：

2-6. 自動劃分訓練集、驗證集，以及自動產生設定檔

使用下面的指令（若需要響度嵌入，請跳過該行看下面的使用響度嵌入）：



1.python preprocess_flist_config.py --speech_encoder vec768l12

編碼器詳解：

speech_encoder ：

擁有以下七個選擇，具體講解請看2.2.1必須項及各編碼器的詳解。如果省略 speech_encoder 參數，預設值為 vec768l12。

1.vec768l12
2.vec256l9
3.hubertsoft
4.whisper-ppg
5.whisper-ppg-large
6.cnhubertlarge
7.dphubert
8.

更多的編碼器選項，請參考訓練參數詳解 - 關於特徵編碼器。

音色洩漏指的是輸出的音色向底模/推理輸入源的原始音色接近，模型說話者越多，音色洩漏越嚴重。考慮到大多數人都希望盡可能還原目標說話者的音色，因此音色洩露被認為是一種不受歡迎的結果。

2-7. 使用響度嵌入

使用響度嵌入後訓練出的模型將匹配到輸入源響度，否則為訓練集響度。（可簡單理解為訓練後模型的音量會與資料集匹配，否則會與底模匹配）。
若使用響度嵌入，需要增加 --vol_aug 參數，例如：



1.python preprocess_flist_config.py --speech_encoder vec768l12 --vol_aug

3. 設定檔依需求修改

config.json

3-1. 基本參數：

vocoder_name : 選擇一種聲碼器，預設為 nsf-hifigan。
log_interval ：多少步輸出一次日誌，預設為 200。
eval_interval ：多少步進行一次驗證並保存一次模型，預設為 800。
epochs ：訓練總輪數，預設為 10000 ，達到此輪數後將自動停止訓練。
learning_rate ：學習率，建議保持預設值不要改。
batch_size ：單次訓練載入到 GPU 的資料量，調整到低於顯存容量的大小即可（單位：個，即資料集中的wav個數）。
all_in_mem ：將所有資料集載入到記憶體中，某些平台的硬碟 IO 過於低、同時記憶體容量遠大於資料集體積時可啟用。
keep_ckpts ：訓練時保留最後幾個模型， 0 為保留所有，預設只保留最後 3 個。

聲碼器列表：

1.nsf-hifigan
2.nsf-snake-hifigan
3.

diffusion.yaml

3-2. 擴散模型參數：

cache_all_data ：載入所有數據集到記憶體中，某些平台的硬碟 IO 過於低、同時記憶體容量遠大於數據集體積時可以啟用（註：至少還得預留1-2G記憶體給作業系統）。
duration ：訓練時音訊切片時長，可依顯存大小調整，注意，此值必須小於數據集內音訊的最短時間！
batch_size ：單次訓練載入到 GPU 的資料量，調整到低於顯存容量的大小即可（單位：個，即資料集中的wav個數）。
timesteps : 擴散模式總步數，預設為 1000。完整的高斯擴散共 1000 步。
k_step_max : 訓練時可僅訓練 k_step_max 步擴散以節約訓練時間，注意，該值必須小於 timesteps ，0 為訓練整個擴散模型，注意，如果不訓練整個擴散模型將無法使用僅擴散模型推理！

注意事項：

請嚴格區分輪數 (Epoch) 和步數 (Step)：1 個 Epoch 代表訓練集中的所有樣本都參與了一次學習，1 Step 代表進行了一步學習，由於 batch size 的存在，每步學習可以含有數條樣本，因此，Epoch 和 Step 的換算如下：

訓練預設 10000 輪後結束，但正常訓練通常只需要數百輪即可有較好的效果。當你覺得訓練差不多完成了，可以在訓練終端按 Ctrl + C 中斷訓練。中斷後只要沒有重新預處理訓練集，就可以在 WebUI 中繼續上一次儲存的訓練進度。

4. F0 預測器選擇與最佳實踐

生成 hubert 與 f0

4-1. 使用下面的指令（若需要訓練淺擴散，請跳過該行看下面的淺擴散）：

1.# 下面的命令使用了rmvpe作为f0预测器，你可以手动进行修改
2.python preprocess_hubert_f0.py --f0_predictor rmvpe

f0_predictor

4-2. 擁有六個選擇，部分 f0 預測器需要額外下載預處理模型，請參考2.2.3-可選項-根據情況選擇

1.crepe
2.dio
3.pm
4.harvest
5.rmvpe（推荐！）
6.fcpe
7.

4-3. 各 f0 預測器的優缺點：

4-4. 注意：

如果訓練集過於吵雜，請使用 crepe 處理 f0。
如果省略 f0_predictor 參數，預設值為 rmvpe。

若需要淺擴散功能（可選）：

4-5. 需要增加--use_diff 參數，例如:

1.# 下面的命令使用了rmvpe作为f0预测器，你可以手动进行修改
2.python preprocess_hubert_f0.py --f0_predictor rmvpe --use_diff

執行完以上步驟後產生的 dataset 目錄便是預處理完成的數據，此時你可以按需刪除 dataset_raw 資料夾了。

最佳實踐

如果你是初次接觸，面對眼花撩亂的可選項，不知道該如何設定預處理參數，這裡為你提供了一些不同使用場景下的最佳實踐：

4-6. 用於翻唱（非即時轉換）：

4-7. 用於朗讀 / 說話（非即時轉換）：

結語：

完成數據集的準備與預處理是 SO-VITS-SVC 訓練的關鍵步驟。通過規範的音訊切片、響度匹配與參數設置，你可以顯著提升模型的訓練效果。希望本文能幫助你順利完成專屬 AI 歌姬的打造！如果遇到問題，請參考官方文檔或社群資源進行排障。

留言

留言分享你的想法！

Violet

發文者

2024/12/24

在用 SO-VITS-SVC 打造 AI 歌姬，零基礎也能輕鬆上手！-數據集準備與環境部署提及了這篇文章，趕快過去看看吧！

Violet的沙龍-聖誕節快樂！

4會員

4內容數

Hello～歡迎來到Soul in the system。我主要研究心理學，但對於AI很有興趣，這裡目前主要是分享關於AI的各種知識，將來希望能分享心理學。心理學跟AI是可以連結的，歡迎同好～

Violet的沙龍-聖誕節快樂！的其他內容

2024/12/24

用 SO-VITS-SVC 打造 AI 歌姬，零基礎也能輕鬆上手！-數據集的錄製與準備

本文分享瞭如何從零開始打造專屬AI歌手的實戰經驗，特別針對數據集的錄製和準備過程。將討論錄製數據集的基本要求、數據處理流程，包括伴奏分離、去除和聲、去混響等步驟。文章提供了具體的操作建議，幫助讀者有效準備高質量的數據集，為訓練聲音模型鋪路。

2024/12/24

用 SO-VITS-SVC 打造 AI 歌姬，零基礎也能輕鬆上手！-數據集的錄製與準備

2024/12/24

用 SO-VITS-SVC 打造 AI 歌姬，零基礎也能輕鬆上手！-數據集準備與環境部署

本篇文章分享瞭如何從零開始使用SO-VITS-SVC構建專屬AI歌手的實戰經驗。重點介紹了數據集的準備和環境的部署，包括硬體需求、Python環境設置及模型訓練的注意事項。作者還分享了雲端訓練和本地訓練的對比，並提醒讀者規範使用資料集避免侵權問題。透過這篇文章，您將獲得構建AI音樂模型的指引和技巧。

2024/12/24

用 SO-VITS-SVC 打造 AI 歌姬，零基礎也能輕鬆上手！-數據集準備與環境部署

2024/12/18

用 SO-VITS-SVC 打造 AI 歌姬，零基礎也能輕鬆上手！

--- SO-VITS-SVC 是一款開源 AI 唱歌模型，作者分享了從零開始打造專屬 AI 歌姬的經驗。從初次接觸 AI 到克服技術門檻，作者驚艷於 AI 的真實歌聲表現，並探索 AI 在聲音生成、繪圖、寫作等領域的潛力。文章提到模型對硬體要求高，未來將分享數據準備與環境部署，幫助讀者輕鬆入門。

2024/12/18

用 SO-VITS-SVC 打造 AI 歌姬，零基礎也能輕鬆上手！

看更多

你可能也想看

方格子 vocus 官方沙龍

沙龍介面新登場！自訂你的創作空間，讓好內容被看見

沙龍一直是創作與交流的重要空間，這次 vocus 全面改版了沙龍介面，就是為了讓好內容被好好看見！你可以自由編排你的沙龍首頁版位，新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。改版完成後可以在社群媒體分享新版面，並標記 @vocus.official⁠ ♥️ ⁠

#vocus#方格子#方格子沙龍

2025/06/12

方格子 vocus 官方沙龍

沙龍介面新登場！自訂你的創作空間，讓好內容被看見

#vocus#方格子#方格子沙龍

2025/06/12

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿Han的沙龍

【💎 語音合成技術 - GPT-SoVITS】如何調整中文發音？

精彩回顧【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務【語音合成技術 - GPT-SoVITS】如何架設API伺服器【語音合成技術 - GPT-SoVITS】如何微調模型建議先閱讀我們的【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務

#TTS#python#發音

2025/04/16

阿Han的沙龍

【💎 語音合成技術 - GPT-SoVITS】如何調整中文發音？

#TTS#python#發音

2025/04/16

AI.ESG.數位轉型顧問沈重宗

Vidu AI 使用教學 Vidu AI 是一款新興的人工智能視頻生成工具，旨在幫助用戶快速創建高質量的視頻內容。

Vidu AI 使用教學 Vidu AI 是一款新興的人工智能視頻生成工具，旨在幫助用戶快速創建高質量的視頻內容。以下是對 Vidu AI 的詳細使用教學，包括其功能、操作步驟及最佳實踐。一、Vidu AI 的功能概述 Vidu AI 提供了多種功能，讓用戶能夠輕鬆生成視頻：文本轉視頻：

#視頻#生成#用戶

2025/02/23

AI.ESG.數位轉型顧問沈重宗

Vidu AI 使用教學 Vidu AI 是一款新興的人工智能視頻生成工具，旨在幫助用戶快速創建高質量的視頻內容。

#視頻#生成#用戶

2025/02/23

AI.ESG.數位轉型顧問沈重宗

PopPop AI 提供多種免費的 AI 工具，涵蓋音效生成、音樂分離、歌曲翻唱以及文字轉語音等功能。

PopPop AI 提供多種免費的 AI 工具，涵蓋音效生成、音樂分離、歌曲翻唱以及文字轉語音等功能。以下是針對不同功能的詳細使用教學： PopPop AI 功能與使用教學 1. AI 音效生成器 PopPop AI 的音效生成器可以根據文字描述生成音效，操作簡單且免費使用

#生成#檔案#支援

2025/02/22

AI.ESG.數位轉型顧問沈重宗

PopPop AI 提供多種免費的 AI 工具，涵蓋音效生成、音樂分離、歌曲翻唱以及文字轉語音等功能。

#生成#檔案#支援

2025/02/22

阿Han的沙龍

【語音合成技術 - GPT-SoVITS】如何微調模型

精彩回顧【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務【語音合成技術 - GPT-SoVITS】如何架設API伺服器以上是我們過往分享過關於 https://github.com/RVC-Boss/GPT-SoVITS 的分享文章，這次我們要來試試fine

#TTS#python#模型

2025/02/12

阿Han的沙龍

【語音合成技術 - GPT-SoVITS】如何微調模型

#TTS#python#模型

2025/02/12

阿Han的沙龍

【語音合成技術 - GPT-SoVITS】如何架設API伺服器

我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」介紹過如何透過docker啟動webui版的TTS服務器，但假設我們想自行開發一個TTS服務，並整合到系統裡面，通常會需要一個傳輸介面來溝通，而API就是最簡易的溝通方式，正巧 ****GPT-SoVITS **

#TTS#語音合成#伺服器

2025/01/22

阿Han的沙龍

【語音合成技術 - GPT-SoVITS】如何架設API伺服器

#TTS#語音合成#伺服器

2025/01/22

阿Han的沙龍

【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務

今天要分享的主題是關於「語音合成技術 - TTS」一款好用的開源軟體，名為「GPT-SoVITS」，它具有以下的特點：零樣本(Zero Shot)：只需要五秒鐘的語音樣本就能即時文字轉語音。少量樣本(Few Shot)：只要1分鐘樣本就能提高語音相似度及真實感。跨語言：日語

#tts#TTS#語音合成

2024/12/25

阿Han的沙龍

【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務

#tts#TTS#語音合成

2024/12/25

真師傅的AI沙龍

AI寫歌的步驟和所需能力

使用AI寫歌確實是一個新興的創作方法。以下是使用AI寫歌的基本步驟和所需能力：步驟： 1. 選擇AI工具：挑選適合的AI歌曲創作工具或平台。 2. 輸入初始參數：設定風格、情感、主題等基本參數。 3. 生成初稿：讓AI生成歌曲的初始版本，包括旋律和歌詞。 4. 審核和編輯：檢查AI生

2024/07/05

2024/07/05

GPT-SoVITS：免費開源聲音克隆專案及其功能-附一鍵安裝包

今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。這個開源的聲音克隆專案，融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型，和SoVITS(Speech-to-Video Voice Transformation Sys

#情感#模型#語言

2024/05/29

紫玉露的沙龍

GPT-SoVITS：免費開源聲音克隆專案及其功能-附一鍵安裝包

#情感#模型#語言

2024/05/29

無限智慧學院的沙龍

三分鐘內實作聲音轉字幕網頁App

相信替影片配字幕是許多人心中的痛，本文帶你在三分鐘內能夠用你的電腦，實做聲音轉字幕網站，準備好了就來吧!

#Huggingface#github#三分鐘

2023/11/04

無限智慧學院的沙龍

三分鐘內實作聲音轉字幕網頁App

相信替影片配字幕是許多人心中的痛，本文帶你在三分鐘內能夠用你的電腦，實做聲音轉字幕網站，準備好了就來吧!

#Huggingface#github#三分鐘

2023/11/04

男子漢聊AI的沙龍

製作專屬數字人教學

需要用到的工具： 1，elevenlabs（聲音處理） 2，heygen（數字人製作）開啟網址: ElevenLabs - Generative AI Text to Speech & Voice Cloning並註冊帳戶 Ps：這一步目的是為了方便聲音的處理

2023/10/18

2023/10/18

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News