【語音合成技術 - GPT-SoVITS】如何微調模型

更新於 發佈於 閱讀時間約 6 分鐘
raw-image


精彩回顧


以上是我們過往分享過關於 https://github.com/RVC-Boss/GPT-SoVITS 的分享文章, 這次我們要來試試finetune模型的章節, 為什麼需要finetune? 因為我們希望機器講出來的話不是生硬的, 而是像人類那麼自然的發音, 因此會需要一些些模型上的微調, 那我們就實際來操演一下。


事前準備作業

我們會需要事先下載模型並掛載, 這會讓我們後續的訓練流程更加順利, 分別有以下步驟:

  1. 下載funasr模型。
  2. 下載pretrained模型。
# 建立iic目錄(funasr固定從iic目錄找模型)
mkdir iic

# 下載ASR模型
git clone <https://www.modelscope.cn/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch.git>

# 下載VAD模型
git clone <https://www.modelscope.cn/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch.git>

# 下載Punc模型
git clone <https://www.modelscope.cn/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch.git>

# 下載pretrained_models 模型
git clone <https://huggingface.co/lj1995/GPT-SoVITS> pretrained_models


模型資源參考: Damo ASR ModelDamo VAD Model, and Damo Punc Model



接著我們重新掛載一下iic目錄

services:
gpt-sovits-webui:
...
volumes:
- ./output:/workspace/output
- ./logs:/workspace/logs
- ./SoVITS_weights:/workspace/SoVITS_weights
- ./GPT_weights:/workspace/GPT_weights
- ./reference:/workspace/reference
- ./iic:/workspace/iic
- ./iic/pretrained_models:/workspace/GPT_SoVITS/pretrained_models



raw-image


接著重啟一下服務

docker compose down -v && docker compose up -d



開啟UVR5進行人聲分離

首先我們透過 http://localhost:9874/ 進入到入口網站, 並勾選 Open UVR5-WebUI


如果沒有自動彈跳, 請另外開啟 http://localhost:9873/, 開啟之後我們可以上傳一段1分鐘左右的音檔來進行finetune, 模型的部份我們可以選擇HP3, 官方有提到, HP3保留人聲的效果稍比HP2好。

raw-image


好了, 配置完成後我們按下Convert的轉換按鈕, 轉換完畢之後我們可以在相對應目錄找到純人聲的檔案。


進行音檔切割

分離完人聲之後, 我們回到 http://localhost:9874/ 來進行音檔切割動作。

raw-image



切割完畢之後我們可以看到設定的輸出目錄會有以下許多段落檔案:

raw-image


以ASR進行文字標注

進入到 http://localhost:9874/ 並進行ASR標註功能

raw-image



檢視標註結果

打開 Open labelling WebUI 頁面。

raw-image


進到 http://localhost:9871/ 可以看到標註結果, 這邊可以邊聽邊校驗。

raw-image


製作資料集

回到 http://localhost:9874/ 並切換到 1-GPT-SOVITS-TTS 並填入相關參數, 最後按下 Start one-click formatting。

raw-image



💡 這個步驟等待有點久的原因是我們的模型都是動態下載, 建議您可以先行下載模型並掛載, 步驟如同「以ASR進行文字標注」的步驟, 請自行設定, 如果遇到任何問題歡迎留言給我, 在認知範圍內必進行回覆。


進行微調 Finetune

切到 fune-tune頁面並直接訓練看看效果。

raw-image



這邊UI的部份不會自動停止, 因此建議可以搭配後端進行查看。

docker compose logs -f



換上新模型並進行推理

如果沒有自動彈跳請自行開啟: http://localhost:9872

raw-image


恭喜您! 調整出接近人類講話的TTS了, 不妨自行動手玩玩看, 相信會非常有成就感!

raw-image


結語

https://github.com/RVC-Boss/GPT-SoVITS 真的是一個非常好用的TTS程式, 透過簡易的UI就能夠自行調出客製化的聲音, 讓我們在打造智能語音機器人時能夠更容易進行整合。

留言
avatar-img
留言分享你的想法!
avatar-img
阿Han的沙龍
129會員
283內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
阿Han的沙龍的其他內容
2025/04/23
我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器, 使用起來大幅度的提昇開發效率, 但仍有些問題點需要克服, 比如說: LLM壓根不知道我們的數據庫長怎樣啊? 怎麼分析結構呢? 假設文檔又不足的狀況下更是艱辛, 如果LLM
Thumbnail
2025/04/23
我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器, 使用起來大幅度的提昇開發效率, 但仍有些問題點需要克服, 比如說: LLM壓根不知道我們的數據庫長怎樣啊? 怎麼分析結構呢? 假設文檔又不足的狀況下更是艱辛, 如果LLM
Thumbnail
2025/03/12
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
2025/03/12
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
2025/03/05
我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務, 但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術, 因此我們可能會需要將API退回舊版, 在這裡我們也整理了早期版本api與api_v2的一些差異, 期望幫助到正在面臨選
Thumbnail
2025/03/05
我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務, 但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術, 因此我們可能會需要將API退回舊版, 在這裡我們也整理了早期版本api與api_v2的一些差異, 期望幫助到正在面臨選
Thumbnail
看更多
你可能也想看
Thumbnail
大家好,我是一名眼科醫師,也是一位孩子的媽 身為眼科醫師的我,我知道視力發展對孩子來說有多關鍵。 每到開學季時,診間便充斥著許多憂心忡忡的家屬。近年來看診中,兒童提早近視、眼睛疲勞的案例明顯增加,除了3C使用過度,最常被忽略的,就是照明品質。 然而作為一位媽媽,孩子能在安全、舒適的環境
Thumbnail
大家好,我是一名眼科醫師,也是一位孩子的媽 身為眼科醫師的我,我知道視力發展對孩子來說有多關鍵。 每到開學季時,診間便充斥著許多憂心忡忡的家屬。近年來看診中,兒童提早近視、眼睛疲勞的案例明顯增加,除了3C使用過度,最常被忽略的,就是照明品質。 然而作為一位媽媽,孩子能在安全、舒適的環境
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 【語音合成技術 - GPT-SoVITS】如何微調模型 建議先閱讀我們的 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務
Thumbnail
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 【語音合成技術 - GPT-SoVITS】如何微調模型 建議先閱讀我們的 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務
Thumbnail
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 以上是我們過往分享過關於 https://github.com/RVC-Boss/GPT-SoVITS 的分享文章, 這次我們要來試試fine
Thumbnail
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 以上是我們過往分享過關於 https://github.com/RVC-Boss/GPT-SoVITS 的分享文章, 這次我們要來試試fine
Thumbnail
今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。 這個開源的聲音克隆專案,融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型,和SoVITS(Speech-to-Video Voice Transformation Sys
Thumbnail
今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。 這個開源的聲音克隆專案,融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型,和SoVITS(Speech-to-Video Voice Transformation Sys
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
Thumbnail
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。
Thumbnail
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。
Thumbnail
相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,實做聲音轉字幕網站,準備好了就來吧!
Thumbnail
相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,實做聲音轉字幕網站,準備好了就來吧!
Thumbnail
現在語音辨識越來越普及,這真是太好了!只要開口說話就可以完成很多操作。 活用Python套件與ChatGPT學習,就像是在開車時使用GPS導航一樣,可以幫助我們更快地到達目的地,而且還不容易迷路!
Thumbnail
現在語音辨識越來越普及,這真是太好了!只要開口說話就可以完成很多操作。 活用Python套件與ChatGPT學習,就像是在開車時使用GPS導航一樣,可以幫助我們更快地到達目的地,而且還不容易迷路!
Thumbnail
在您的數據上免費使用 GPT3 這是GPT3根據Reddit的一些笑話微調後生成的笑話之一。如需更多 AI 生成的笑話,請滾動至文章末尾,我會在其中寫一些我最喜歡的由 GPT3 生成的笑話。
Thumbnail
在您的數據上免費使用 GPT3 這是GPT3根據Reddit的一些笑話微調後生成的笑話之一。如需更多 AI 生成的笑話,請滾動至文章末尾,我會在其中寫一些我最喜歡的由 GPT3 生成的笑話。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News