更新於 2024/06/18閱讀時間約 7 分鐘

GPT-SoVITS:訓練聲音模組教學與心得(只要2分鐘,你聲音是我的了!)

我希望這個教學大家可以用在,小說配音或是影片旁白等等不違法不傷天害理的事情上,而不是用在〝詐騙〞犯罪等!

這幾天訓練聲音,還蠻順利的,為了這個聲音訓練,我也研究了不少資料,其中我有找到一個最清楚的教程且簡單的教程影片,我分享給大家看看

↓這個是一個叫痕继痕迹UP主播的教學,他講解得很詳細↓

邊看他的教學,邊操作,基本上沒捨麼問題


首先沒GPT-SoVITS安裝包的​請至上一篇這邊領取↓

GPT-SoVITS:免費開源聲音克隆專案及其功能-附一鍵安裝包

下載整合包之後,解壓一下,然後開啟GPT service資料夾,雙擊執行go webui


壹、再來你需要先準備素材

音頻素材只需要一分鐘兩分鐘都可以,長一點當然會更好,那他目前僅支援中文音訊用於訓練,未來會支援其他語言。

↓收集素材有幾個方式↓

1.手機錄音:

手機安卓可以用自帶的錄音機up記得把格式設定為wav以獲得更好的效果
iPhone可以用AVRX這樣的軟體在設定裡同樣選擇WAV格式進行錄製錄製,請記得環境確保沒有雜音


2.廣播劇或是聽書APP:

你可以選擇一些聽書軟體,比如說懶人聽書、喜馬拉雅、或是其他聽書平台,你可以下載他們的音檔,進行訓練,但最好抓多一點不同情感的音檔。


3.YOUTUBE等等社交媒體平台的,音檔通通都可以訓練。

youtube如何下載音檔?這邊小教學一下,你可以使用

將網址中的youtube

改成yout

然後就會進入這畫面,你就能下載wav檔案


貳、接下來開啟GPT-SoVITS WebUI→勾選UVR5-WebUI

耐心等待一下(※等待時間,稍微有點長※),它會打開新的頁面,


  • 一、將你的音頻文件檔案拖入到<代處理音頻文件夾路徑>的下方


  • 二、按照上方的文字提示,到模型的框位置,找合適模型,

而想只保留人聲的,建議模型選擇HP2。


  • 三、建立專用資料夾到GPT-SoVITS的根目錄內,
資料夾命名:根據個人喜好命名,而我命名:DATA,
然後DATA內要建立你的角色資料夾(以後要整理都以角色名稱下去整理),
同時在你的角色資料夾內創建以下幾個資料夾,用來存不同數據


  • 四、你將你的輸出音樂和人聲的路徑,複製起來,複製路徑方式在下圖

貼到<指定輸出人聲文件夾>你的文件夾設定uvr5_vocals

貼到<指定輸出非主人聲文件夾>你的文件夾設定uvr5_others


  • 五、最後你設定好之後,可以按一下轉換,最右邊會跑出輸出訊息,你就可以到你設定的路徑,找你的檔案。

参、接下來要來切割音頻


  • 一、首先到這個<音頻自動切分輸入路徑,可文件可文件夾>輸入音頻文件夾路徑(※文件夾是你的輸出人聲資料夾uvr5_vocals路徑※)


  • 二、然後到<切分后的子音頻輸出根目錄>這邊放上你的要輸出切割的資料夾路徑 (※文件夾是你的輸出切割資料夾licer路徑※)


  • 三、其餘參數都默認,只需要按一下語音切割即可。


  • 四、 到你的slier資料夾內

上方黃色的點,按右建點選長度顯示,你就可以看到全部音檔的長度,不可以超過20秒,不然無法當素材取用,超過20秒的,需要將你的音檔全刪掉,重新調整參數切割。



肆、切割完成後,我們需要打標


  • 一、將切割音檔slier資料夾複製路徑,粘貼<批量ASR(中文only)輸入文件夾路徑>


  • 二、<開始離線批量ASR> 需等待一段時間,等待<ASR進程輸出訊息>這邊顯示已完成才行


  • 三、去資料夾找output/asr_opt路徑內,找slicer.list檔案,複製這個檔案的路徑

怎麼複製路徑:先點選檔案,再按上方的複製路徑


將路徑複製到<打標數據標注文件路徑>內。



  • 四、 <勾選語音文本校對標註工具>下方的<是否開啟打標Webui>勾選起來,等一段時間,它會打開新的分頁


  • 五、聽音檔是否有根文本一樣,尤其是標點符號,語氣停頓的地方是否正確,需要檢查
如有錯誤要修改,那麼修改完成後,請一定要點Submit Text來儲存,點next index切換到下一頁,每次切換頁面之前一定要點這個Submit Text來儲存
然後點選Delete Audio是刪除音檔,點Merge Audio可以選兩個音頻合併,特別注意合併和刪除完畢都要要按Submit Text來儲存。

伍、校正完成後,頁面上方切換至1-GPT-SoVITS-TTS的頁面​


  • 一、首先在<實驗/模型名>打上你訓練模型的名稱


  • 二、<文件標註文件>填入標註檔案的路徑 (※記住是檔案路徑喔,不是資料夾)


  • 三、<訓練集音頻文件>目錄填入切割好的音訊檔案路徑


  • 四、設定好後,其他參數保持默認,然後到下方按<開啟一鍵三連>,在右邊顯示:一鍵三連進程結束,就說明處理完畢。


  • 五、切換到<1B-微調訓練>的頁面,所有參數都默認,


  • 六、<開啟SoVITS訓練>,等待訓練時間會有點長,要耐心等待,直到右邊出現SoVITS訓練完成即可。


  • 七、<開啟GPT訓練>,等待訓練時間會有點長,要耐心等待,直到右邊出現GPT訓練完成即可。


  • 八、如果出現這個錯誤

此時需要降低每張顯卡的batch size值,然後再次嘗試你可以每次減少4來看看能不能正常跑。


  • 九、接下來,在根目錄找SoVITS_weightsGPT_weights資料夾內,可以找到模組。

SoVITS_weights副檔名是.ph,檔名會顯示訓練步數,比如s1080就是訓練1080步,e15就是訓練15輪。


GPT_weights副檔名是.ckpt,e10就是訓練10輪。另外GPT_weightsbatch size值不可以設置太高。


★如果沒看到這些檔案,就代表你沒訓練成功,你就需看命令窗口是否跑出錯誤訊息。


  • 十、訓練效果不好時,可以調整訓練倫數,拉高些,但不要太高,太高效果也不會太明顯。

最後需要注意保存頻率,這邊給大家一個保存模型數的公式

注意數值不用太高,保存過多模型,沒有意義。


陸、訓練完成後,使用推理,看看你模型效果。


  • 一、首先點選刷新模型列表,先刷新


  • 二、GPT模型列表SoVits模型列表找自己的模型


  • 三、選完模型後,勾選是否開啟TTS推理WebUI

然後耐心等待推理頁面開啟



  • 四、在這邊我們要先放入參考音頻,

注意↓

你訓練哪個人的聲音,就必須放那個人的素材聲音做參考。
參考音頻也不可以太長,個人建議5秒即可,太長會導致生成結果抽風。


  • 五、上傳你的音訊素材,你可以從你切割完成的音訊選擇


  • 六、設定你上傳音訊的文本以及設定你的參考音頻語言。(※如果你想獲得生氣的語音,你上傳的參考音頻就必須視生氣的音頻,以此內推)


  • 七、接著輸入想要的文本,再設定語言。(※目前測試結果中文效果較好,其他語言有點bug)


  • 八、最後點合成語音,你就會在下方看到合成出來的結果。(※即使是一樣的參數,你每一次合成的語音,效果也不會一樣。)


  • 九、下載音頻,可以點擊右邊的三個點,可以下載

或是打開根目錄的TEMP資料夾,可以找到歷史的生成紀錄。



補充,如果你想要較長的文本,你須至下方文本切割工具,進行分割,左邊貼上你的文本,右邊依照你的需求去點擊切割即可。



❤️喜歡請按讚與追蹤喔!做這篇教學文,花我不少時間,只求你一個讚❤️

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.