GPT-SoVITS:訓練聲音模組教學與心得(只要2分鐘,你聲音是我的了!)

更新於 發佈於 閱讀時間約 7 分鐘
我希望這個教學大家可以用在,小說配音或是影片旁白等等不違法不傷天害理的事情上,而不是用在〝詐騙〞犯罪等!

這幾天訓練聲音,還蠻順利的,為了這個聲音訓練,我也研究了不少資料,其中我有找到一個最清楚的教程且簡單的教程影片,我分享給大家看看

↓這個是一個叫痕继痕迹UP主播的教學,他講解得很詳細↓

邊看他的教學,邊操作,基本上沒捨麼問題


首先沒GPT-SoVITS安裝包的​請至上一篇這邊領取↓

GPT-SoVITS:免費開源聲音克隆專案及其功能-附一鍵安裝包

下載整合包之後,解壓一下,然後開啟GPT service資料夾,雙擊執行go webui


壹、再來你需要先準備素材

音頻素材只需要一分鐘兩分鐘都可以,長一點當然會更好,那他目前僅支援中文音訊用於訓練,未來會支援其他語言。

↓收集素材有幾個方式↓

1.手機錄音:

手機安卓可以用自帶的錄音機up記得把格式設定為wav以獲得更好的效果
iPhone可以用AVRX這樣的軟體在設定裡同樣選擇WAV格式進行錄製錄製,請記得環境確保沒有雜音


2.廣播劇或是聽書APP:

你可以選擇一些聽書軟體,比如說懶人聽書、喜馬拉雅、或是其他聽書平台,你可以下載他們的音檔,進行訓練,但最好抓多一點不同情感的音檔。


3.YOUTUBE等等社交媒體平台的,音檔通通都可以訓練。

youtube如何下載音檔?這邊小教學一下,你可以使用

將網址中的youtube

raw-image

改成yout

raw-image

然後就會進入這畫面,你就能下載wav檔案

raw-image

貳、接下來開啟GPT-SoVITS WebUI→勾選UVR5-WebUI

raw-image

耐心等待一下(※等待時間,稍微有點長※),它會打開新的頁面,

raw-image


  • 一、將你的音頻文件檔案拖入到<代處理音頻文件夾路徑>的下方
raw-image


  • 二、按照上方的文字提示,到模型的框位置,找合適模型,
raw-image

而想只保留人聲的,建議模型選擇HP2。

raw-image


  • 三、建立專用資料夾到GPT-SoVITS的根目錄內,
資料夾命名:根據個人喜好命名,而我命名:DATA,
然後DATA內要建立你的角色資料夾(以後要整理都以角色名稱下去整理),
同時在你的角色資料夾內創建以下幾個資料夾,用來存不同數據
raw-image


  • 四、你將你的輸出音樂和人聲的路徑,複製起來,複製路徑方式在下圖
raw-image

貼到<指定輸出人聲文件夾>你的文件夾設定uvr5_vocals

raw-image

貼到<指定輸出非主人聲文件夾>你的文件夾設定uvr5_others

raw-image


  • 五、最後你設定好之後,可以按一下轉換,最右邊會跑出輸出訊息,你就可以到你設定的路徑,找你的檔案。

参、接下來要來切割音頻

raw-image


  • 一、首先到這個<音頻自動切分輸入路徑,可文件可文件夾>輸入音頻文件夾路徑(※文件夾是你的輸出人聲資料夾uvr5_vocals路徑※)


  • 二、然後到<切分后的子音頻輸出根目錄>這邊放上你的要輸出切割的資料夾路徑 (※文件夾是你的輸出切割資料夾licer路徑※)
raw-image


  • 三、其餘參數都默認,只需要按一下語音切割即可。


  • 四、 到你的slier資料夾內
raw-image

上方黃色的點,按右建點選長度顯示,你就可以看到全部音檔的長度,不可以超過20秒,不然無法當素材取用,超過20秒的,需要將你的音檔全刪掉,重新調整參數切割。

raw-image



肆、切割完成後,我們需要打標

raw-image


  • 一、將切割音檔slier資料夾複製路徑,粘貼<批量ASR(中文only)輸入文件夾路徑>
raw-image


  • 二、<開始離線批量ASR> 需等待一段時間,等待<ASR進程輸出訊息>這邊顯示已完成才行


  • 三、去資料夾找output/asr_opt路徑內,找slicer.list檔案,複製這個檔案的路徑
raw-image

怎麼複製路徑:先點選檔案,再按上方的複製路徑

raw-image


將路徑複製到<打標數據標注文件路徑>內。

raw-image



  • 四、 <勾選語音文本校對標註工具>下方的<是否開啟打標Webui>勾選起來,等一段時間,它會打開新的分頁
raw-image


  • 五、聽音檔是否有根文本一樣,尤其是標點符號,語氣停頓的地方是否正確,需要檢查
如有錯誤要修改,那麼修改完成後,請一定要點Submit Text來儲存,點next index切換到下一頁,每次切換頁面之前一定要點這個Submit Text來儲存
然後點選Delete Audio是刪除音檔,點Merge Audio可以選兩個音頻合併,特別注意合併和刪除完畢都要要按Submit Text來儲存。

伍、校正完成後,頁面上方切換至1-GPT-SoVITS-TTS的頁面​

raw-image


  • 一、首先在<實驗/模型名>打上你訓練模型的名稱


  • 二、<文件標註文件>填入標註檔案的路徑 (※記住是檔案路徑喔,不是資料夾)
raw-image


  • 三、<訓練集音頻文件>目錄填入切割好的音訊檔案路徑
raw-image


  • 四、設定好後,其他參數保持默認,然後到下方按<開啟一鍵三連>,在右邊顯示:一鍵三連進程結束,就說明處理完畢。


  • 五、切換到<1B-微調訓練>的頁面,所有參數都默認,
raw-image


  • 六、<開啟SoVITS訓練>,等待訓練時間會有點長,要耐心等待,直到右邊出現SoVITS訓練完成即可。


  • 七、<開啟GPT訓練>,等待訓練時間會有點長,要耐心等待,直到右邊出現GPT訓練完成即可。


  • 八、如果出現這個錯誤
raw-image

此時需要降低每張顯卡的batch size值,然後再次嘗試你可以每次減少4來看看能不能正常跑。

raw-image


  • 九、接下來,在根目錄找SoVITS_weightsGPT_weights資料夾內,可以找到模組。
raw-image

SoVITS_weights副檔名是.ph,檔名會顯示訓練步數,比如s1080就是訓練1080步,e15就是訓練15輪。

raw-image


GPT_weights副檔名是.ckpt,e10就是訓練10輪。另外GPT_weightsbatch size值不可以設置太高。

raw-image


★如果沒看到這些檔案,就代表你沒訓練成功,你就需看命令窗口是否跑出錯誤訊息。


  • 十、訓練效果不好時,可以調整訓練倫數,拉高些,但不要太高,太高效果也不會太明顯。
raw-image

最後需要注意保存頻率,這邊給大家一個保存模型數的公式

raw-image

注意數值不用太高,保存過多模型,沒有意義。


陸、訓練完成後,使用推理,看看你模型效果。

raw-image


  • 一、首先點選刷新模型列表,先刷新
raw-image


  • 二、GPT模型列表SoVits模型列表找自己的模型
raw-image


  • 三、選完模型後,勾選是否開啟TTS推理WebUI
raw-image

然後耐心等待推理頁面開啟

raw-image



  • 四、在這邊我們要先放入參考音頻,

注意↓

你訓練哪個人的聲音,就必須放那個人的素材聲音做參考。
參考音頻也不可以太長,個人建議5秒即可,太長會導致生成結果抽風。


  • 五、上傳你的音訊素材,你可以從你切割完成的音訊選擇
raw-image


  • 六、設定你上傳音訊的文本以及設定你的參考音頻語言。(※如果你想獲得生氣的語音,你上傳的參考音頻就必須視生氣的音頻,以此內推)
raw-image


  • 七、接著輸入想要的文本,再設定語言。(※目前測試結果中文效果較好,其他語言有點bug)
raw-image


  • 八、最後點合成語音,你就會在下方看到合成出來的結果。(※即使是一樣的參數,你每一次合成的語音,效果也不會一樣。)
raw-image


  • 九、下載音頻,可以點擊右邊的三個點,可以下載
raw-image

或是打開根目錄的TEMP資料夾,可以找到歷史的生成紀錄。

raw-image



補充,如果你想要較長的文本,你須至下方文本切割工具,進行分割,左邊貼上你的文本,右邊依照你的需求去點擊切割即可。

raw-image


❤️喜歡請按讚與追蹤喔!做這篇教學文,花我不少時間,只求你一個讚❤️

avatar-img
11會員
15內容數
我是一位多元化的設計師&藝術家,擁有豐富的設計經驗和藝術創作能力。擅長平面設計、品牌設計、包裝設計、AIGC等,也能進行數字繪畫等創作。探索不同設計風格和趨勢,創造獨特設計作品。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
紫玉露的沙龍 的其他內容
今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。 這個開源的聲音克隆專案,融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型,和SoVITS(Speech-to-Video Voice Transformation Sys
今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。 這個開源的聲音克隆專案,融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型,和SoVITS(Speech-to-Video Voice Transformation Sys
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我的發聲課程一開始很單純,就是做對了姿態調整,像健身一樣,就會改變聲音的音質,同時拓展了音域,也使音量有更大、更小的調整空間。另外,就是搭配了自己在投資理財業算是小有聲望的講師經驗,在節奏斷句與音量音高的組合上,教大家如何在不同的情境使用合宜的聲音,而有專業的好感度。 那怎麼會教著教著,產生了"聲
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
"增進聲語說服力"的前題在於"開發人聲質量域上",音質明亮、咬字清晰、抑揚頓挫等等對於聲語說服力與魅力有關的描述,要做的出來都要有更好的發聲能力去做支持。 在"增進聲語說服力"的課程中,有三個主題,包含了斷句節奏、音高音域四象限所組成的聲語情境,以及音質上令聲音有魅力、說服力的重要關鍵。
Thumbnail
這篇文章介紹了使用手語輸出練習來提高英文口說能力的方法。透過觀賞影片並用英文表達影片內容的訓練方式,可以有效提升單字輸出、口說能力和短期記憶。文章詳細介紹了少人和多人團體練習的進行方式以及相關的補充提示。此外還提到可以配合背誦單字的練習,以增強學生的學習效果。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
教你3種方式跟ChatGPT練習英文口說 ➊ 付費版 探索GPT ➋ 付費版 ➌ 免費版
Thumbnail
「人工智障計畫」也執行了好一段時間了,關於這個專案中文字轉語音的方案,在之前的筆記中也有稍微提到,為了達成能自訂聲線,並且能完全離線運作兩個條件,我已經做過了不少嘗試。
Thumbnail
從第一次使用到現在,使用GPT近一年的經驗分享。介紹在使用GPT時的困難、挑戰及學習到的技巧,以及如何讓GPT更好地理解所需內容。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我的發聲課程一開始很單純,就是做對了姿態調整,像健身一樣,就會改變聲音的音質,同時拓展了音域,也使音量有更大、更小的調整空間。另外,就是搭配了自己在投資理財業算是小有聲望的講師經驗,在節奏斷句與音量音高的組合上,教大家如何在不同的情境使用合宜的聲音,而有專業的好感度。 那怎麼會教著教著,產生了"聲
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
"增進聲語說服力"的前題在於"開發人聲質量域上",音質明亮、咬字清晰、抑揚頓挫等等對於聲語說服力與魅力有關的描述,要做的出來都要有更好的發聲能力去做支持。 在"增進聲語說服力"的課程中,有三個主題,包含了斷句節奏、音高音域四象限所組成的聲語情境,以及音質上令聲音有魅力、說服力的重要關鍵。
Thumbnail
這篇文章介紹了使用手語輸出練習來提高英文口說能力的方法。透過觀賞影片並用英文表達影片內容的訓練方式,可以有效提升單字輸出、口說能力和短期記憶。文章詳細介紹了少人和多人團體練習的進行方式以及相關的補充提示。此外還提到可以配合背誦單字的練習,以增強學生的學習效果。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
教你3種方式跟ChatGPT練習英文口說 ➊ 付費版 探索GPT ➋ 付費版 ➌ 免費版
Thumbnail
「人工智障計畫」也執行了好一段時間了,關於這個專案中文字轉語音的方案,在之前的筆記中也有稍微提到,為了達成能自訂聲線,並且能完全離線運作兩個條件,我已經做過了不少嘗試。
Thumbnail
從第一次使用到現在,使用GPT近一年的經驗分享。介紹在使用GPT時的困難、挑戰及學習到的技巧,以及如何讓GPT更好地理解所需內容。