【語音合成技術 - GPT-SoVITS】如何微調模型

2025/02/19 更新2025/02/12 發佈閱讀 6 分鐘

精彩回顧

以上是我們過往分享過關於 https://github.com/RVC-Boss/GPT-SoVITS 的分享文章，這次我們要來試試finetune模型的章節，為什麼需要finetune？因為我們希望機器講出來的話不是生硬的，而是像人類那麼自然的發音，因此會需要一些些模型上的微調，那我們就實際來操演一下。

事前準備作業

我們會需要事先下載模型並掛載，這會讓我們後續的訓練流程更加順利，分別有以下步驟：

下載funasr模型。
下載pretrained模型。

# 建立iic目錄(funasr固定從iic目錄找模型)
mkdir iic

# 下載ASR模型
git clone <https://www.modelscope.cn/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch.git>

# 下載VAD模型
git clone <https://www.modelscope.cn/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch.git>

# 下載Punc模型
git clone <https://www.modelscope.cn/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch.git>

# 下載pretrained_models 模型
git clone <https://huggingface.co/lj1995/GPT-SoVITS> pretrained_models

模型資源參考： Damo ASR Model, Damo VAD Model, and Damo Punc Model

接著我們重新掛載一下iic目錄

services:
  gpt-sovits-webui:
	  ...
		volumes:
		      - ./output:/workspace/output
		      - ./logs:/workspace/logs
		      - ./SoVITS_weights:/workspace/SoVITS_weights
		      - ./GPT_weights:/workspace/GPT_weights
		      - ./reference:/workspace/reference
		      - ./iic:/workspace/iic
					- ./iic/pretrained_models:/workspace/GPT_SoVITS/pretrained_models

接著重啟一下服務

docker compose down -v && docker compose up -d

開啟UVR5進行人聲分離

首先我們透過 http://localhost:9874/ 進入到入口網站，並勾選 Open UVR5-WebUI

如果沒有自動彈跳，請另外開啟 http://localhost:9873/，開啟之後我們可以上傳一段1分鐘左右的音檔來進行finetune，模型的部份我們可以選擇HP3，官方有提到， HP3保留人聲的效果稍比HP2好。

好了，配置完成後我們按下Convert的轉換按鈕，轉換完畢之後我們可以在相對應目錄找到純人聲的檔案。

進行音檔切割

分離完人聲之後，我們回到 http://localhost:9874/ 來進行音檔切割動作。

切割完畢之後我們可以看到設定的輸出目錄會有以下許多段落檔案：

以ASR進行文字標注

進入到 http://localhost:9874/ 並進行ASR標註功能

檢視標註結果

打開 Open labelling WebUI 頁面。

進到 http://localhost:9871/ 可以看到標註結果，這邊可以邊聽邊校驗。

製作資料集

回到 http://localhost:9874/ 並切換到 1-GPT-SOVITS-TTS 並填入相關參數，最後按下 Start one-click formatting。

💡 這個步驟等待有點久的原因是我們的模型都是動態下載，建議您可以先行下載模型並掛載，步驟如同「以ASR進行文字標注」的步驟，請自行設定，如果遇到任何問題歡迎留言給我，在認知範圍內必進行回覆。

進行微調 Finetune

切到 fune-tune頁面並直接訓練看看效果。

這邊UI的部份不會自動停止，因此建議可以搭配後端進行查看。

docker compose logs -f

換上新模型並進行推理

如果沒有自動彈跳請自行開啟： http://localhost:9872

恭喜您！調整出接近人類講話的TTS了，不妨自行動手玩玩看，相信會非常有成就感！

結語

https://github.com/RVC-Boss/GPT-SoVITS 真的是一個非常好用的TTS程式，透過簡易的UI就能夠自行調出客製化的聲音，讓我們在打造智能語音機器人時能夠更容易進行整合。

阿Han的沙龍阿Han的軟體技術棧 💡AI

留言

留言分享你的想法！

阿Han的沙龍

141會員

308內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2025/04/23

【🤖 cursor AI】如何使用MCP Server

我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器，使用起來大幅度的提昇開發效率，但仍有些問題點需要克服，比如說： LLM壓根不知道我們的數據庫長怎樣啊？怎麼分析結構呢？假設文檔又不足的狀況下更是艱辛，如果LLM

2025/04/23

【🤖 cursor AI】如何使用MCP Server

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術，該套GPT-SoVITS也非常的出色，但效能有點不是非常理想，加上需要GPU才能達到較佳的體驗，如此一來成本就會有點高了，因此我們找了另外一套MeloTTS，這一套強調CPU推理非常的快！

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務，但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術，因此我們可能會需要將API退回舊版，在這裡我們也整理了早期版本api與api_v2的一些差異，期望幫助到正在面臨選

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

看更多

你可能也想看

阿Han的沙龍

【💎 語音合成技術 - GPT-SoVITS】如何調整中文發音？

精彩回顧【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務【語音合成技術 - GPT-SoVITS】如何架設API伺服器【語音合成技術 - GPT-SoVITS】如何微調模型建議先閱讀我們的【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務

#TTS#python#發音

2025/04/16

阿Han的沙龍

【💎 語音合成技術 - GPT-SoVITS】如何調整中文發音？

#TTS#python#發音

2025/04/16

阿Han的沙龍

【語音合成技術 - GPT-SoVITS】如何微調模型

精彩回顧【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務【語音合成技術 - GPT-SoVITS】如何架設API伺服器以上是我們過往分享過關於 https://github.com/RVC-Boss/GPT-SoVITS 的分享文章，這次我們要來試試fine

#TTS#python#模型

2025/02/12

阿Han的沙龍

【語音合成技術 - GPT-SoVITS】如何微調模型

#TTS#python#模型

2025/02/12

紫玉露的沙龍

GPT-SoVITS：免費開源聲音克隆專案及其功能-附一鍵安裝包

今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。這個開源的聲音克隆專案，融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型，和SoVITS(Speech-to-Video Voice Transformation Sys

#情感#模型#語言

2024/05/29

紫玉露的沙龍

GPT-SoVITS：免費開源聲音克隆專案及其功能-附一鍵安裝包

#情感#模型#語言

2024/05/29

每日發車

筆記-曲博談AI模型.群聯-24.05.05

筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型三個步驟: 1.預訓練，訓練一次要用幾萬顆處理器、訓練時間要1個月，ChatGPT訓練一次的成本為1000萬美金。 2.微調(

2024/05/06

每日發車

筆記-曲博談AI模型.群聯-24.05.05

2024/05/06

GPT工作術｜與你一起補給工作的AI能量沙龍

什麼是「Voice Cloning」？ AI擬聲的影響與爭議

OpenAI近期公開了名為「Voice Engine（語音引擎）」的AI模型，使用者只要輸入文字與15秒的音訊樣本，該模型便會自動生成與原說話者相似的語音訊息。AI擬聲，也就是大家常說的聲音克隆（Voice Cloning），這項技術發展迅速，讓我們可以輕易複製一個人的聲音，產生合成語音

#智慧財產權#法律#OpenAI

2024/04/08

GPT工作術｜與你一起補給工作的AI能量沙龍

什麼是「Voice Cloning」？ AI擬聲的影響與爭議

#智慧財產權#法律#OpenAI

2024/04/08

Raphael AI 科學家

ChatGPT 模型訓練：RLHF 技術解析

ChatGPT 是 OpenAI 開發的大型語言模型，以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段：預訓練和微調。微調使用了 RLHF（Reinforcement Learning from Human Feedback）技術，可以有效地提高模型生成內容的質量。

#ChatGPT#RLHF#預訓練

2024/03/01

Raphael AI 科學家

ChatGPT 模型訓練：RLHF 技術解析

#ChatGPT#RLHF#預訓練

2024/03/01

無限智慧學院的沙龍

一起探索文生語音的奧術，OpenVoice 開源MyShell.ai後臺模型

要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成，這聽起來很不可思議對吧? 但這就是本篇論文取得的成就，不僅如此，該有的功能，如調整情感，口音節奏，停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文，這會是很有趣的旅程。

#AI論文詳解#OpenVoice#MyshellAI

2024/01/19

無限智慧學院的沙龍

一起探索文生語音的奧術，OpenVoice 開源MyShell.ai後臺模型

#AI論文詳解#OpenVoice#MyshellAI

2024/01/19

無限智慧學院的沙龍

三分鐘內實作聲音轉字幕網頁App

相信替影片配字幕是許多人心中的痛，本文帶你在三分鐘內能夠用你的電腦，實做聲音轉字幕網站，準備好了就來吧!

#Huggingface#github#三分鐘

2023/11/04

無限智慧學院的沙龍

三分鐘內實作聲音轉字幕網頁App

相信替影片配字幕是許多人心中的痛，本文帶你在三分鐘內能夠用你的電腦，實做聲音轉字幕網站，準備好了就來吧!

#Huggingface#github#三分鐘

2023/11/04

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News