更新於 2024/12/24閱讀時間約 5 分鐘

用 SO-VITS-SVC 打造 AI 歌姬,零基礎也能輕鬆上手!-數據集的錄製與準備




SO-VITS-SVC實戰經驗分享:從零開始打造我的專屬AI歌手




AI唱歌系列之三-數據集的錄製與準備





1. 錄製數據集

如要訓練自己的聲音模型,需要自己錄製數據。步驟如下:



基本要求


數據量需求:








錄音環境準備:選擇安靜地方,避免空曠空間(容易有回音)。


錄音內容建議:

  • 自己熟悉且能完整演唱的歌曲。
  • 不同風格的曲目,快慢都要有,包含高低音(提高模型適應性)。
  • 情感表現豐富的歌曲,豐富的情感變化。
  • 2-4分鐘/首。
  • 最好10-15首不同歌曲。


※注意事項:

  • 無背景音樂、混響、和聲的乾聲。
  • 完整演唱選定歌曲,自然的情感演繹。
  • 保持穩定的音質和音量,避免忽大忽小聲。
  • 確保安靜的錄音環境。


避免:

  • 混入任何說話聲音。
  • 加入伴奏音樂。
  • 使用帶回音的環境。
  • 音量過大失真。



2. 數據集處理

提取人聲的順序流程是分離伴奏——去除和聲——去除混響和回聲。



2-1.伴奏分離

如果使用的是帶伴奏的歌曲作為數據集,請一定要將人聲分離出來。分離人聲及伴奏推薦使用Ultimate Vocal Remover 5(UVR 5),下載對應的處理模型。

可使用的分離伴奏方法,擇一使用:

  1. 人聲去除器和AI智慧伴奏分離器 | LALAL.AI。效果還不錯,但不是免費的。
    ※使用方法可參考:LALALAI使用方法。
  2. 使用火山引擎 SAMI 技術。可參考SAMI文檔。
  3. 剪映專業版(有VIP)。沒有VIP的可使用剪映專業版+錄屏(沒有聲音損失)。
  4. 使用 UVR5 - MDX23C-InstVoc HQ 模型。


  1. 使用 Ripple 分離人聲。(蘋果用戶專享)



2-2.去除和聲

  1. 使用 UVR5 的去除和聲模型(以下三個擇其一)
  • UVR-BVE-4B_SN-44100-1 (Instrumental Only)。
  • 6_HP_Karaoke-UVR (Vocals Only)(没有5激烈)。
  • 5_HP_Karaoke-UVR (Vocals Only) (比6激進,有可能會過頭)。
  1. Hit'n'Mix RipX 手動分離出人聲(非必要别用,費時費力)。



2-3.去混響和回聲

  1. 使用 UVR5 的去混響模型(以下三個擇其一)。
  • UVR-De-Echo-Normal選No Echo Only(輕度混響)。
  • UVR-De-Echo-Aggressive選No Echo Only(重度混響)。
  • UVR-De-Echo-Dereverb選No Echo Only(遇到變態的混響可以用)。








※ 注意:使用 UVR5 請確保 UVR 版本是最新的,否則可能無法下載所需模型。



2-4.數據集結構與命名規範


1.數據集目錄結構:

  • 數據都處理好之後,可先使用重命名軟件,把檔案名稱都統一,之後的預處理比較不會出錯。
  • 都處理好後,要將數據集放入dataset_raw目錄。
  • 請按照以下文件結構,並且命名只能有英文、數字以及windows允许的特殊符號。
dataset_raw
├───speaker0
│ ├───xxx1-xxx1.wav
│ ├───...
│ └───Lxx-0xx8.wav
└───speaker1
├───xx2-0xxx2.wav
├───...
└───xxx7-xxx007.wav


2.檔案命名規範:

  • 對於每一個音訊檔案的名稱並沒有格式的限制(000001.wav~999999.wav之類的命名方式也是合法的),不過檔案類型必須是wav。
  • 可以自訂說話者名稱。
dataset_raw
└───suijiSUI
├───1.wav
├───...
└───25788785-20221210-200143-856_01_(Vocals)_0_0.wav


如果追求更精確的選曲,可參考

選擇適合的歌曲和評估方法。


結語:

透過上述步驟與工具,您可以有效準備高質量的數據集,為訓練專屬聲音模型奠定基礎。記得遵循命名規範與工具使用建議,確保整個流程順利進行。

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.