GPT-SoVITS：訓練聲音模組教學與心得(只要2分鐘，你聲音是我的了!)

紫玉露

發佈於AI工具介紹與攻略

2024/06/18 更新2024/05/31 發佈閱讀 7 分鐘

我希望這個教學大家可以用在，小說配音或是影片旁白等等不違法不傷天害理的事情上，而不是用在〝詐騙〞犯罪等!

這幾天訓練聲音，還蠻順利的，為了這個聲音訓練，我也研究了不少資料，其中我有找到一個最清楚的教程且簡單的教程影片，我分享給大家看看

↓這個是一個叫痕继痕迹UP主播的教學，他講解得很詳細↓

邊看他的教學，邊操作，基本上沒捨麼問題

首先沒GPT-SoVITS安裝包的請至上一篇這邊領取↓

GPT-SoVITS：免費開源聲音克隆專案及其功能-附一鍵安裝包

下載整合包之後，解壓一下，然後開啟GPT service資料夾，雙擊執行go webui

壹、再來你需要先準備素材

音頻素材只需要一分鐘兩分鐘都可以，長一點當然會更好，那他目前僅支援中文音訊用於訓練，未來會支援其他語言。

↓收集素材有幾個方式↓

1.手機錄音:

手機安卓可以用自帶的錄音機up記得把格式設定為wav以獲得更好的效果

iPhone可以用AVRX這樣的軟體在設定裡同樣選擇WAV格式進行錄製錄製，請記得環境確保沒有雜音

2.廣播劇或是聽書APP:

你可以選擇一些聽書軟體，比如說懶人聽書、喜馬拉雅、或是其他聽書平台，你可以下載他們的音檔，進行訓練，但最好抓多一點不同情感的音檔。

3.YOUTUBE等等社交媒體平台的，音檔通通都可以訓練。

youtube如何下載音檔?這邊小教學一下，你可以使用

將網址中的youtube

改成yout

然後就會進入這畫面，你就能下載wav檔案

貳、接下來開啟GPT-SoVITS WebUI→`勾選UVR5-WebUI`

耐心等待一下(※等待時間，稍微有點長※)，它會打開新的頁面，

一、將你的音頻文件檔案拖入到<代處理音頻文件夾路徑>的下方

二、按照上方的文字提示，到模型的框位置，找合適模型，

而想只保留人聲的，建議模型選擇HP2。

三、建立專用資料夾到GPT-SoVITS的根目錄內，

資料夾命名:根據個人喜好命名，而我命名:DATA，

然後DATA內要建立你的角色資料夾(以後要整理都以角色名稱下去整理)，

同時在你的角色資料夾內創建以下幾個資料夾，用來存不同數據

四、你將你的輸出音樂和人聲的路徑，複製起來，複製路徑方式在下圖

貼到<指定輸出人聲文件夾>你的文件夾設定uvr5_vocals

貼到<指定輸出非主人聲文件夾>你的文件夾設定uvr5_others

五、最後你設定好之後，可以按一下轉換，最右邊會跑出輸出訊息，你就可以到你設定的路徑，找你的檔案。

参、接下來要來切割音頻

一、首先到這個<音頻自動切分輸入路徑，可文件可文件夾>位置輸入音頻文件夾路徑(※文件夾是你的輸出人聲資料夾uvr5_vocals路徑※)

二、然後到<切分后的子音頻輸出根目錄>這邊放上你的要輸出切割的資料夾路徑 (※文件夾是你的輸出切割資料夾licer路徑※)

三、其餘參數都默認，只需要按一下語音切割即可。

四、到你的slier資料夾內

上方黃色的點，按右建點選長度顯示，你就可以看到全部音檔的長度，不可以超過20秒，不然無法當素材取用，超過20秒的，需要將你的音檔全刪掉，重新調整參數切割。

肆、切割完成後，我們需要打標

一、將切割音檔slier資料夾複製路徑，粘貼<批量ASR(中文only)輸入文件夾路徑>

二、按<開始離線批量ASR> 需等待一段時間，等待<ASR進程輸出訊息>這邊顯示已完成才行

三、去資料夾找output/asr_opt路徑內，找slicer.list檔案，複製這個檔案的路徑

怎麼複製路徑:先點選檔案，再按上方的複製路徑。

將路徑複製到<打標數據標注文件路徑>內。

四、 <勾選語音文本校對標註工具>下方的<是否開啟打標Webui>勾選起來，等一段時間，它會打開新的分頁

五、聽音檔是否有根文本一樣，尤其是標點符號，語氣停頓的地方是否正確，需要檢查

如有錯誤要修改，那麼修改完成後，請一定要點Submit Text來儲存，點next index切換到下一頁，每次切換頁面之前一定要點這個Submit Text來儲存

然後點選Delete Audio是刪除音檔，點Merge Audio可以選兩個音頻合併，特別注意合併和刪除完畢都要要按Submit Text來儲存。

伍、校正完成後，頁面上方切換至`1-GPT-SoVITS-TTS`的頁面

一、首先在<實驗/模型名>打上你訓練模型的名稱

二、到<文件標註文件>填入標註檔案的路徑 (※記住是檔案路徑喔，不是資料夾)

三、到<訓練集音頻文件>目錄填入切割好的音訊檔案路徑

四、設定好後，其他參數保持默認，然後到下方按<開啟一鍵三連>，在右邊顯示:一鍵三連進程結束，就說明處理完畢。

五、切換到<1B-微調訓練>的頁面，所有參數都默認，

六、按<開啟SoVITS訓練>，等待訓練時間會有點長，要耐心等待，直到右邊出現SoVITS訓練完成即可。

七、按<開啟GPT訓練>，等待訓練時間會有點長，要耐心等待，直到右邊出現GPT訓練完成即可。

八、如果出現這個錯誤

此時需要降低每張顯卡的batch size值，然後再次嘗試你可以每次減少4來看看能不能正常跑。

九、接下來，在根目錄找SoVITS_weights和GPT_weights資料夾內，可以找到模組。

SoVITS_weights副檔名是.ph，檔名會顯示訓練步數，比如s1080就是訓練1080步，e15就是訓練15輪。

GPT_weights副檔名是.ckpt，e10就是訓練10輪。另外GPT_weights的batch size值不可以設置太高。

★如果沒看到這些檔案，就代表你沒訓練成功，你就需看命令窗口是否跑出錯誤訊息。

十、訓練效果不好時，可以調整訓練倫數，拉高些，但不要太高，太高效果也不會太明顯。

最後需要注意保存頻率，這邊給大家一個保存模型數的公式

注意數值不用太高，保存過多模型，沒有意義。

陸、訓練完成後，使用推理，看看你模型效果。

一、首先點選刷新模型列表，先刷新

二、在GPT模型列表和SoVits模型列表找自己的模型

三、選完模型後，勾選是否開啟TTS推理WebUI

然後耐心等待推理頁面開啟

四、在這邊我們要先放入參考音頻，

注意↓

你訓練哪個人的聲音，就必須放那個人的素材聲音做參考。

參考音頻也不可以太長，個人建議5秒即可，太長會導致生成結果抽風。

五、上傳你的音訊素材，你可以從你切割完成的音訊選擇

六、設定你上傳音訊的文本以及設定你的參考音頻語言。(※如果你想獲得生氣的語音，你上傳的參考音頻就必須視生氣的音頻，以此內推)

七、接著輸入想要的文本，再設定語言。(※目前測試結果中文效果較好，其他語言有點bug)

八、最後點合成語音，你就會在下方看到合成出來的結果。(※即使是一樣的參數，你每一次合成的語音，效果也不會一樣。)

九、下載音頻，可以點擊右邊的三個點，可以下載

或是打開根目錄的TEMP資料夾，可以找到歷史的生成紀錄。

補充，如果你想要較長的文本，你須至下方文本切割工具，進行分割，左邊貼上你的文本，右邊依照你的需求去點擊切割即可。

❤️喜歡請按讚與追蹤喔!做這篇教學文，花我不少時間，只求你一個讚❤️

留言

紫玉露的沙龍

21會員

17內容數

我是一位多元化的設計師&藝術家，擁有豐富的設計經驗和藝術創作能力。擅長平面設計、品牌設計、包裝設計、AIGC等，也能進行數字繪畫等創作。探索不同設計風格和趨勢，創造獨特設計作品。

紫玉露的沙龍的其他內容

2024/06/18

Suno AI音樂元標籤收藏筆記

Suno 是一款備受音樂愛好者和創作者喜愛的音樂創作神器。憑藉其強大的歌曲生成能力，Suno 在市場上脫穎而出。這款應用程序採用了先進的智能算法，可以在短時間內根據用戶的指示生成旋律優美、歌詞動人的歌曲。對於那些需要靈感或者希望提高創作效率的音樂人來說，Suno 是不可或缺的工具。

2024/06/18

Suno AI音樂元標籤收藏筆記

2024/06/13

即夢Dreamina- AI視頻工具的使用方法

本文介紹如何使用即夢Dreamina視頻生成工具，以及相關的技巧和注意事項。即夢Dreamina是一個能夠通過靠頭尾幀補中間的幀生成完整視頻的AI工具，並提供每日60積分的服務。文章將介紹製作圖片、背景修改、運鏡控制等步驟，並提供無限生成穿梭動畫的方法。

2024/06/13

即夢Dreamina- AI視頻工具的使用方法

2024/06/08

★PixVerse★ AI視頻魔術刷運用筆記

PixVerse是一款AI工具，推出了全新的〝魔術刷〞功能，讓使用者能夠輕鬆生成動態圖像。同時，PixVerse每天還會贈送免費的20積分，歡迎透過本文提供的連結前往官方網站體驗。

2024/06/08

★PixVerse★ AI視頻魔術刷運用筆記

看更多

你可能也想看

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼，反而利用華麗的秀場視覺，引導觀眾在晚期資本主義的消費愉悅之中，而能驚覺「批判」本身亦可能被收編——而當絞繩升起，這場關於如何生存的黑色遊戲，又將帶領新時代的我們走向何種後現代的自我解構？

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

貓貓學習筆記

TextToSpeech-神經網路如何理解文字

上篇我們簡單的了解了 TTS 想要達到的目標，但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚，這篇將針對訓練資料處理中的文字部分進行詳細說明，讓我們開始吧。

#AI#TextToSpeech#Pytorch

2024/05/27

貓貓學習筆記

TextToSpeech-神經網路如何理解文字

#AI#TextToSpeech#Pytorch

2024/05/27

河西羊的養聲坊

聲.心靈! 在談什麼呢?

我的發聲課程一開始很單純，就是做對了姿態調整，像健身一樣，就會改變聲音的音質，同時拓展了音域，也使音量有更大、更小的調整空間。另外，就是搭配了自己在投資理財業算是小有聲望的講師經驗，在節奏斷句與音量音高的組合上，教大家如何在不同的情境使用合宜的聲音，而有專業的好感度。那怎麼會教著教著，產生了"聲

2024/07/21

河西羊的養聲坊

聲.心靈! 在談什麼呢?

2024/07/21

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28