我希望這個教學大家可以用在,小說配音或是影片旁白等等不違法不傷天害理的事情上,而不是用在〝詐騙〞犯罪等!
這幾天訓練聲音,還蠻順利的,為了這個聲音訓練,我也研究了不少資料,其中我有找到一個最清楚的教程且簡單的教程影片,我分享給大家看看
↓這個是一個叫痕继痕迹UP主播的教學,他講解得很詳細↓
邊看他的教學,邊操作,基本上沒捨麼問題首先沒GPT-SoVITS安裝包的請至上一篇這邊領取↓
GPT-SoVITS:免費開源聲音克隆專案及其功能-附一鍵安裝包
下載整合包之後,解壓一下,然後開啟GPT service資料夾,雙擊執行go webui
壹、再來你需要先準備素材
音頻素材只需要一分鐘兩分鐘都可以,長一點當然會更好,那他目前僅支援中文音訊用於訓練,未來會支援其他語言。
↓收集素材有幾個方式↓
1.手機錄音:
手機安卓可以用自帶的錄音機up記得把格式設定為wav以獲得更好的效果
iPhone可以用AVRX這樣的軟體在設定裡同樣選擇WAV格式進行錄製錄製,請記得環境確保沒有雜音
2.廣播劇或是聽書APP:
你可以選擇一些聽書軟體,比如說懶人聽書、喜馬拉雅、或是其他聽書平台,你可以下載他們的音檔,進行訓練,但最好抓多一點不同情感的音檔。
3.YOUTUBE等等社交媒體平台的,音檔通通都可以訓練。
youtube如何下載音檔?這邊小教學一下,你可以使用
將網址中的youtube

改成yout

然後就會進入這畫面,你就能下載wav檔案

貳、接下來開啟GPT-SoVITS WebUI→勾選UVR5-WebUI

耐心等待一下(※等待時間,稍微有點長※),它會打開新的頁面,

- 一、將你的音頻文件檔案拖入到
<代處理音頻文件夾路徑>
的下方

- 二、按照上方的文字提示,到模型的框位置,找合適模型,

而想只保留人聲的,建議模型選擇HP2。

- 三、建立專用資料夾到GPT-SoVITS的根目錄內,
資料夾命名:根據個人喜好命名,而我命名:DATA,
然後DATA內要建立你的角色資料夾(以後要整理都以角色名稱下去整理),
同時在你的角色資料夾內創建以下幾個資料夾,用來存不同數據

- 四、你將你的輸出音樂和人聲的路徑,複製起來,複製路徑方式在下圖

貼到<指定輸出人聲文件夾>
你的文件夾設定uvr5_vocals

貼到<指定輸出非主人聲文件夾>
你的文件夾設定uvr5_others

- 五、最後你設定好之後,可以按一下轉換,最右邊會跑出輸出訊息,你就可以到你設定的路徑,找你的檔案。
参、接下來要來切割音頻

- 一、首先到這個
<音頻自動切分輸入路徑,可文件可文件夾>
位置輸入音頻文件夾路徑(※文件夾是你的輸出人聲資料夾uvr5_vocals路徑※)
- 二、然後到
<切分后的子音頻輸出根目錄>
這邊放上你的要輸出切割的資料夾路徑 (※文件夾是你的輸出切割資料夾licer路徑※)

- 三、其餘參數都默認,只需要按一下語音切割即可。
- 四、 到你的slier資料夾內

上方黃色的點,按右建點選長度顯示,你就可以看到全部音檔的長度,不可以超過20秒,不然無法當素材取用,超過20秒的,需要將你的音檔全刪掉,重新調整參數切割。

肆、切割完成後,我們需要打標

- 一、將切割音檔slier資料夾複製路徑,粘貼
<批量ASR(中文only)輸入文件夾路徑>

- 二、按
<開始離線批量ASR>
需等待一段時間,等待<ASR進程輸出訊息>這邊顯示已完成才行
- 三、去資料夾找output/asr_opt路徑內,找slicer.list檔案,複製這個檔案的路徑

怎麼複製路徑:先點選檔案,再按上方的複製路徑。

將路徑複製到<打標數據標注文件路徑>
內。

- 四、
<勾選語音文本校對標註工具>
下方的<是否開啟打標Webui>
勾選起來,等一段時間,它會打開新的分頁

- 五、聽音檔是否有根文本一樣,尤其是標點符號,語氣停頓的地方是否正確,需要檢查
如有錯誤要修改,那麼修改完成後,請一定要點Submit Text
來儲存,點next index
切換到下一頁,每次切換頁面之前一定要點這個Submit Text
來儲存
然後點選Delete Audio
是刪除音檔,點Merge Audio
可以選兩個音頻合併,特別注意合併和刪除完畢都要要按Submit Text
來儲存。
伍、校正完成後,頁面上方切換至1-GPT-SoVITS-TTS
的頁面

- 一、首先在
<實驗/模型名>
打上你訓練模型的名稱
- 二、到
<文件標註文件>
填入標註檔案的路徑 (※記住是檔案路徑喔,不是資料夾)

- 三、到
<訓練集音頻文件>
目錄填入切割好的音訊檔案路徑

- 四、設定好後,其他參數保持默認,然後到下方按
<開啟一鍵三連>
,在右邊顯示:一鍵三連進程結束,就說明處理完畢。
- 五、切換到<1B-微調訓練>的頁面,所有參數都默認,

- 六、按
<開啟SoVITS訓練>
,等待訓練時間會有點長,要耐心等待,直到右邊出現SoVITS訓練完成即可。
- 七、按
<開啟GPT訓練>
,等待訓練時間會有點長,要耐心等待,直到右邊出現GPT訓練完成即可。
- 八、如果出現這個錯誤

此時需要降低每張顯卡的batch size值
,然後再次嘗試你可以每次減少4來看看能不能正常跑。

- 九、接下來,在根目錄找SoVITS_weights和GPT_weights資料夾內,可以找到模組。

SoVITS_weights副檔名是.ph,檔名會顯示訓練步數,比如s1080就是訓練1080步,e15就是訓練15輪。

GPT_weights副檔名是.ckpt,e10就是訓練10輪。另外GPT_weights的batch size值
不可以設置太高。

★如果沒看到這些檔案,就代表你沒訓練成功,你就需看命令窗口是否跑出錯誤訊息。
- 十、訓練效果不好時,可以調整訓練倫數,拉高些,但不要太高,太高效果也不會太明顯。

最後需要注意保存頻率,這邊給大家一個保存模型數的公式

注意數值不用太高,保存過多模型,沒有意義。
陸、訓練完成後,使用推理,看看你模型效果。

- 一、首先點選刷新模型列表,先刷新

- 二、在
GPT模型列表
和SoVits模型列表
找自己的模型

- 三、選完模型後,勾選是否開啟
TTS推理WebUI

然後耐心等待推理頁面開啟

- 四、在這邊我們要先放入參考音頻,
注意↓
你訓練哪個人的聲音,就必須放那個人的素材聲音做參考。
參考音頻也不可以太長,個人建議5秒即可,太長會導致生成結果抽風。
- 五、上傳你的音訊素材,你可以從你切割完成的音訊選擇

- 六、設定你上傳音訊的文本以及設定你的參考音頻語言。(※如果你想獲得生氣的語音,你上傳的參考音頻就必須視生氣的音頻,以此內推)

- 七、接著輸入想要的文本,再設定語言。(※目前測試結果中文效果較好,其他語言有點bug)

- 八、最後點合成語音,你就會在下方看到合成出來的結果。(※即使是一樣的參數,你每一次合成的語音,效果也不會一樣。)

- 九、下載音頻,可以點擊右邊的三個點,可以下載

或是打開根目錄的TEMP資料夾
,可以找到歷史的生成紀錄。

補充,如果你想要較長的文本,你須至下方文本切割工具,進行分割,左邊貼上你的文本,右邊依照你的需求去點擊切割即可。

❤️喜歡請按讚與追蹤喔!做這篇教學文,花我不少時間,只求你一個讚❤️