SO-VITS-SVC實戰經驗分享:從零開始打造我的專屬AI歌手
AI唱歌系列之三-數據集的錄製與準備
1. 錄製數據集
如要訓練自己的聲音模型,需要自己錄製數據。步驟如下:
基本要求
數據量需求:
錄音環境準備:選擇安靜地方,避免空曠空間(容易有回音)。
錄音內容建議:
- 自己熟悉且能完整演唱的歌曲。
- 不同風格的曲目,快慢都要有,包含高低音(提高模型適應性)。
- 情感表現豐富的歌曲,豐富的情感變化。
- 2-4分鐘/首。
- 最好10-15首不同歌曲。
※注意事項:
- 無背景音樂、混響、和聲的乾聲。
- 完整演唱選定歌曲,自然的情感演繹。
- 保持穩定的音質和音量,避免忽大忽小聲。
- 確保安靜的錄音環境。
避免:
- 混入任何說話聲音。
- 加入伴奏音樂。
- 使用帶回音的環境。
- 音量過大失真。
2. 數據集處理
提取人聲的順序流程是分離伴奏——去除和聲——去除混響和回聲。
2-1.伴奏分離
如果使用的是帶伴奏的歌曲作為數據集,請一定要將人聲分離出來。分離人聲及伴奏推薦使用Ultimate Vocal Remover 5(UVR 5),下載對應的處理模型。
可使用的分離伴奏方法,擇一使用:
- 人聲去除器和AI智慧伴奏分離器 | LALAL.AI。效果還不錯,但不是免費的。
※使用方法可參考:LALALAI使用方法。 - 使用火山引擎 SAMI 技術。可參考SAMI文檔。
- 剪映專業版(有VIP)。沒有VIP的可使用剪映專業版+錄屏(沒有聲音損失)。
- 使用 UVR5 - MDX23C-InstVoc HQ 模型。
- 使用 Ripple 分離人聲。(蘋果用戶專享)
2-2.去除和聲
- 使用 UVR5 的去除和聲模型(以下三個擇其一)
- UVR-BVE-4B_SN-44100-1 (Instrumental Only)。
- 6_HP_Karaoke-UVR (Vocals Only)(没有5激烈)。
- 5_HP_Karaoke-UVR (Vocals Only) (比6激進,有可能會過頭)。
- Hit'n'Mix RipX 手動分離出人聲(非必要别用,費時費力)。
2-3.去混響和回聲
- 使用 UVR5 的去混響模型(以下三個擇其一)。
- UVR-De-Echo-Normal選No Echo Only(輕度混響)。
- UVR-De-Echo-Aggressive選No Echo Only(重度混響)。
- UVR-De-Echo-Dereverb選No Echo Only(遇到變態的混響可以用)。
※ 注意:使用 UVR5 請確保 UVR 版本是最新的,否則可能無法下載所需模型。
2-4.數據集結構與命名規範
1.數據集目錄結構:
- 數據都處理好之後,可先使用重命名軟件,把檔案名稱都統一,之後的預處理比較不會出錯。
- 都處理好後,要將數據集放入dataset_raw目錄。
- 請按照以下文件結構,並且命名只能有英文、數字以及windows允许的特殊符號。
dataset_raw
├───speaker0
│ ├───xxx1-xxx1.wav
│ ├───...
│ └───Lxx-0xx8.wav
└───speaker1
├───xx2-0xxx2.wav
├───...
└───xxx7-xxx007.wav
2.檔案命名規範:
- 對於每一個音訊檔案的名稱並沒有格式的限制(000001.wav~999999.wav之類的命名方式也是合法的),不過檔案類型必須是wav。
- 可以自訂說話者名稱。
dataset_raw
└───suijiSUI
├───1.wav
├───...
└───25788785-20221210-200143-856_01_(Vocals)_0_0.wav
如果追求更精確的選曲,可參考
選擇適合的歌曲和評估方法。
結語:
透過上述步驟與工具,您可以有效準備高質量的數據集,為訓練專屬聲音模型奠定基礎。記得遵循命名規範與工具使用建議,確保整個流程順利進行。