GPT-SoVITS:訓練聲音模組教學與心得(只要2分鐘,你聲音是我的了!)

更新於 2024/06/18閱讀時間約 7 分鐘
我希望這個教學大家可以用在,小說配音或是影片旁白等等不違法不傷天害理的事情上,而不是用在〝詐騙〞犯罪等!

這幾天訓練聲音,還蠻順利的,為了這個聲音訓練,我也研究了不少資料,其中我有找到一個最清楚的教程且簡單的教程影片,我分享給大家看看

↓這個是一個叫痕继痕迹UP主播的教學,他講解得很詳細↓

邊看他的教學,邊操作,基本上沒捨麼問題


首先沒GPT-SoVITS安裝包的​請至上一篇這邊領取↓

GPT-SoVITS:免費開源聲音克隆專案及其功能-附一鍵安裝包

下載整合包之後,解壓一下,然後開啟GPT service資料夾,雙擊執行go webui


壹、再來你需要先準備素材

音頻素材只需要一分鐘兩分鐘都可以,長一點當然會更好,那他目前僅支援中文音訊用於訓練,未來會支援其他語言。

↓收集素材有幾個方式↓

1.手機錄音:

手機安卓可以用自帶的錄音機up記得把格式設定為wav以獲得更好的效果
iPhone可以用AVRX這樣的軟體在設定裡同樣選擇WAV格式進行錄製錄製,請記得環境確保沒有雜音


2.廣播劇或是聽書APP:

你可以選擇一些聽書軟體,比如說懶人聽書、喜馬拉雅、或是其他聽書平台,你可以下載他們的音檔,進行訓練,但最好抓多一點不同情感的音檔。


3.YOUTUBE等等社交媒體平台的,音檔通通都可以訓練。

youtube如何下載音檔?這邊小教學一下,你可以使用

將網址中的youtube

raw-image

改成yout

raw-image

然後就會進入這畫面,你就能下載wav檔案

raw-image

貳、接下來開啟GPT-SoVITS WebUI→勾選UVR5-WebUI

raw-image

耐心等待一下(※等待時間,稍微有點長※),它會打開新的頁面,

raw-image


  • 一、將你的音頻文件檔案拖入到<代處理音頻文件夾路徑>的下方
raw-image


  • 二、按照上方的文字提示,到模型的框位置,找合適模型,
raw-image

而想只保留人聲的,建議模型選擇HP2。

raw-image


  • 三、建立專用資料夾到GPT-SoVITS的根目錄內,
資料夾命名:根據個人喜好命名,而我命名:DATA,
然後DATA內要建立你的角色資料夾(以後要整理都以角色名稱下去整理),
同時在你的角色資料夾內創建以下幾個資料夾,用來存不同數據
raw-image


  • 四、你將你的輸出音樂和人聲的路徑,複製起來,複製路徑方式在下圖
raw-image

貼到<指定輸出人聲文件夾>你的文件夾設定uvr5_vocals

raw-image

貼到<指定輸出非主人聲文件夾>你的文件夾設定uvr5_others

raw-image


  • 五、最後你設定好之後,可以按一下轉換,最右邊會跑出輸出訊息,你就可以到你設定的路徑,找你的檔案。

参、接下來要來切割音頻

raw-image


  • 一、首先到這個<音頻自動切分輸入路徑,可文件可文件夾>輸入音頻文件夾路徑(※文件夾是你的輸出人聲資料夾uvr5_vocals路徑※)


  • 二、然後到<切分后的子音頻輸出根目錄>這邊放上你的要輸出切割的資料夾路徑 (※文件夾是你的輸出切割資料夾licer路徑※)
raw-image


  • 三、其餘參數都默認,只需要按一下語音切割即可。


  • 四、 到你的slier資料夾內
raw-image

上方黃色的點,按右建點選長度顯示,你就可以看到全部音檔的長度,不可以超過20秒,不然無法當素材取用,超過20秒的,需要將你的音檔全刪掉,重新調整參數切割。

raw-image



肆、切割完成後,我們需要打標

raw-image


  • 一、將切割音檔slier資料夾複製路徑,粘貼<批量ASR(中文only)輸入文件夾路徑>
raw-image


  • 二、<開始離線批量ASR> 需等待一段時間,等待<ASR進程輸出訊息>這邊顯示已完成才行


  • 三、去資料夾找output/asr_opt路徑內,找slicer.list檔案,複製這個檔案的路徑
raw-image

怎麼複製路徑:先點選檔案,再按上方的複製路徑

raw-image


將路徑複製到<打標數據標注文件路徑>內。

raw-image



  • 四、 <勾選語音文本校對標註工具>下方的<是否開啟打標Webui>勾選起來,等一段時間,它會打開新的分頁
raw-image


  • 五、聽音檔是否有根文本一樣,尤其是標點符號,語氣停頓的地方是否正確,需要檢查
如有錯誤要修改,那麼修改完成後,請一定要點Submit Text來儲存,點next index切換到下一頁,每次切換頁面之前一定要點這個Submit Text來儲存
然後點選Delete Audio是刪除音檔,點Merge Audio可以選兩個音頻合併,特別注意合併和刪除完畢都要要按Submit Text來儲存。

伍、校正完成後,頁面上方切換至1-GPT-SoVITS-TTS的頁面​

raw-image


  • 一、首先在<實驗/模型名>打上你訓練模型的名稱


  • 二、<文件標註文件>填入標註檔案的路徑 (※記住是檔案路徑喔,不是資料夾)
raw-image


  • 三、<訓練集音頻文件>目錄填入切割好的音訊檔案路徑
raw-image


  • 四、設定好後,其他參數保持默認,然後到下方按<開啟一鍵三連>,在右邊顯示:一鍵三連進程結束,就說明處理完畢。


  • 五、切換到<1B-微調訓練>的頁面,所有參數都默認,
raw-image


  • 六、<開啟SoVITS訓練>,等待訓練時間會有點長,要耐心等待,直到右邊出現SoVITS訓練完成即可。


  • 七、<開啟GPT訓練>,等待訓練時間會有點長,要耐心等待,直到右邊出現GPT訓練完成即可。


  • 八、如果出現這個錯誤
raw-image

此時需要降低每張顯卡的batch size值,然後再次嘗試你可以每次減少4來看看能不能正常跑。

raw-image


  • 九、接下來,在根目錄找SoVITS_weightsGPT_weights資料夾內,可以找到模組。
raw-image

SoVITS_weights副檔名是.ph,檔名會顯示訓練步數,比如s1080就是訓練1080步,e15就是訓練15輪。

raw-image


GPT_weights副檔名是.ckpt,e10就是訓練10輪。另外GPT_weightsbatch size值不可以設置太高。

raw-image


★如果沒看到這些檔案,就代表你沒訓練成功,你就需看命令窗口是否跑出錯誤訊息。


  • 十、訓練效果不好時,可以調整訓練倫數,拉高些,但不要太高,太高效果也不會太明顯。
raw-image

最後需要注意保存頻率,這邊給大家一個保存模型數的公式

raw-image

注意數值不用太高,保存過多模型,沒有意義。


陸、訓練完成後,使用推理,看看你模型效果。

raw-image


  • 一、首先點選刷新模型列表,先刷新
raw-image


  • 二、GPT模型列表SoVits模型列表找自己的模型
raw-image


  • 三、選完模型後,勾選是否開啟TTS推理WebUI
raw-image

然後耐心等待推理頁面開啟

raw-image



  • 四、在這邊我們要先放入參考音頻,

注意↓

你訓練哪個人的聲音,就必須放那個人的素材聲音做參考。
參考音頻也不可以太長,個人建議5秒即可,太長會導致生成結果抽風。


  • 五、上傳你的音訊素材,你可以從你切割完成的音訊選擇
raw-image


  • 六、設定你上傳音訊的文本以及設定你的參考音頻語言。(※如果你想獲得生氣的語音,你上傳的參考音頻就必須視生氣的音頻,以此內推)
raw-image


  • 七、接著輸入想要的文本,再設定語言。(※目前測試結果中文效果較好,其他語言有點bug)
raw-image


  • 八、最後點合成語音,你就會在下方看到合成出來的結果。(※即使是一樣的參數,你每一次合成的語音,效果也不會一樣。)
raw-image


  • 九、下載音頻,可以點擊右邊的三個點,可以下載
raw-image

或是打開根目錄的TEMP資料夾,可以找到歷史的生成紀錄。

raw-image



補充,如果你想要較長的文本,你須至下方文本切割工具,進行分割,左邊貼上你的文本,右邊依照你的需求去點擊切割即可。

raw-image


❤️喜歡請按讚與追蹤喔!做這篇教學文,花我不少時間,只求你一個讚❤️

avatar-img
11會員
15內容數
我是一位多元化的設計師&藝術家,擁有豐富的設計經驗和藝術創作能力。擅長平面設計、品牌設計、包裝設計、AIGC等,也能進行數字繪畫等創作。探索不同設計風格和趨勢,創造獨特設計作品。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
紫玉露的沙龍 的其他內容
今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。 這個開源的聲音克隆專案,融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型,和SoVITS(Speech-to-Video Voice Transformation Sys
今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。 這個開源的聲音克隆專案,融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型,和SoVITS(Speech-to-Video Voice Transformation Sys
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
GPTs的應用,讓我們有機會窺見大師觀點,也幫助我們從不同的角度思考問題。過去我們需要一本本翻閱尋找解謎的鑰匙,現在你只要呼叫GPT,這些大師就紛紛獻出智慧,為你分憂解惑。AI的時代,讓我們更容易站在巨人肩膀上。
Thumbnail
GPT的應用對知識內容型創作者的衝擊,包括減低網站內廣告曝光及內容影片重點可不必觀看完整影片等,對於業配模式和影響也是一大改變。GPT的應用對知識內容型創作者的衝擊,包括減低網站內廣告曝光及內容影片重點可不必觀看完整影片等,對於業配模式和影響也是一大改變。
Thumbnail
GPT-4基於MarketSenseAI在炒股方面表現出色,報導指出其回報率高達40%,並且表現比標普100指數高出13%。 MarketSenseAI結合了思維鏈和上下文學習的方法來分析各種資料來源,包括市場價格動態、財經新聞、公司基本面和巨集觀經濟報告等,並由五個主要部分構成,分別
Thumbnail
2023年3月15日,OpenAI發布了GPT-4,這是一款基於更先進技術的ChatGPT。相較於之前的3.5版本,GPT-4在中文處理和應用於具體行業工作中顯示出明顯的進步。這篇文章旨在探討GPT-4結合PowerInsights在保險行業中的應用,特別是對產品經理的工作方式產生的影響。
Thumbnail
每一個期待透過AI進行寫作的創作者,都能夠從這篇文章獲得啟發。 這將可以幫助你提升GPT4的寫作品質,優化輸入與提示的效能。 藉由這三大策略,你將能夠更有效地利用GPT4來創造出豐富且有趣的文章。
GPT-4 和 Claude 2這兩個人工智慧模型都是目前最先進的大型語言模型,各有其優勢和缺點。在這篇文章中,我將從以下四個方面來比較它們:使用便利性、費用、英文模型和中文模型。  #科技力 #GPT-4 #claude2 #生成式Ai 一、使用便利性 一個人工智慧模型能夠提供多少種方式讓用
Thumbnail
1. 有效地確定任務的優先級 Prompt:分析下面的任務,並幫助我使用艾森豪威爾矩陣來確定它們的優先級 2. 數位排毒 Prompt:為我制定一個數位排毒計劃,以減少分心並提高工作時間的注意力。
Thumbnail
What would you like ChatGPT to know about you to provide better responses?【GPT需要瞭解的資訊】 職業/角色:健身教練 主要職責:創建和執行個性化的健身計畫,監控客戶的進度,並教授適當的鍛煉技巧。
Thumbnail
#原創指令# 有時候我們生成的圖片品質並不高,核心是因為我們審美以及視覺抽象概念的描述,還不夠清晰,而有些專業的術語,似乎只有資深玩家才可能掌握。 打開GPT-4,選擇DALL.E3。複製這段我的原創指令
Thumbnail
我們今天來講講樣式修飾符,大家在使用dall-E的過程裡,一定需要用到些描述圖形的關鍵字。這些關鍵字就是修飾符。樣式修飾符只是描述符,它們會根據指令產生某些樣式(例如“有色紅色”、“玻璃製成” ),然後,它們可以組合在一起以產生更具體的樣式。
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
GPTs的應用,讓我們有機會窺見大師觀點,也幫助我們從不同的角度思考問題。過去我們需要一本本翻閱尋找解謎的鑰匙,現在你只要呼叫GPT,這些大師就紛紛獻出智慧,為你分憂解惑。AI的時代,讓我們更容易站在巨人肩膀上。
Thumbnail
GPT的應用對知識內容型創作者的衝擊,包括減低網站內廣告曝光及內容影片重點可不必觀看完整影片等,對於業配模式和影響也是一大改變。GPT的應用對知識內容型創作者的衝擊,包括減低網站內廣告曝光及內容影片重點可不必觀看完整影片等,對於業配模式和影響也是一大改變。
Thumbnail
GPT-4基於MarketSenseAI在炒股方面表現出色,報導指出其回報率高達40%,並且表現比標普100指數高出13%。 MarketSenseAI結合了思維鏈和上下文學習的方法來分析各種資料來源,包括市場價格動態、財經新聞、公司基本面和巨集觀經濟報告等,並由五個主要部分構成,分別
Thumbnail
2023年3月15日,OpenAI發布了GPT-4,這是一款基於更先進技術的ChatGPT。相較於之前的3.5版本,GPT-4在中文處理和應用於具體行業工作中顯示出明顯的進步。這篇文章旨在探討GPT-4結合PowerInsights在保險行業中的應用,特別是對產品經理的工作方式產生的影響。
Thumbnail
每一個期待透過AI進行寫作的創作者,都能夠從這篇文章獲得啟發。 這將可以幫助你提升GPT4的寫作品質,優化輸入與提示的效能。 藉由這三大策略,你將能夠更有效地利用GPT4來創造出豐富且有趣的文章。
GPT-4 和 Claude 2這兩個人工智慧模型都是目前最先進的大型語言模型,各有其優勢和缺點。在這篇文章中,我將從以下四個方面來比較它們:使用便利性、費用、英文模型和中文模型。  #科技力 #GPT-4 #claude2 #生成式Ai 一、使用便利性 一個人工智慧模型能夠提供多少種方式讓用
Thumbnail
1. 有效地確定任務的優先級 Prompt:分析下面的任務,並幫助我使用艾森豪威爾矩陣來確定它們的優先級 2. 數位排毒 Prompt:為我制定一個數位排毒計劃,以減少分心並提高工作時間的注意力。
Thumbnail
What would you like ChatGPT to know about you to provide better responses?【GPT需要瞭解的資訊】 職業/角色:健身教練 主要職責:創建和執行個性化的健身計畫,監控客戶的進度,並教授適當的鍛煉技巧。
Thumbnail
#原創指令# 有時候我們生成的圖片品質並不高,核心是因為我們審美以及視覺抽象概念的描述,還不夠清晰,而有些專業的術語,似乎只有資深玩家才可能掌握。 打開GPT-4,選擇DALL.E3。複製這段我的原創指令
Thumbnail
我們今天來講講樣式修飾符,大家在使用dall-E的過程裡,一定需要用到些描述圖形的關鍵字。這些關鍵字就是修飾符。樣式修飾符只是描述符,它們會根據指令產生某些樣式(例如“有色紅色”、“玻璃製成” ),然後,它們可以組合在一起以產生更具體的樣式。