【語音合成技術 - GPT-SoVITS】解析API版本

更新於 2025/03/05發佈於 2025/03/05閱讀時間約 1 分鐘

我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務，但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術，因此我們可能會需要將API退回舊版，在這裡我們也整理了早期版本api與api_v2的一些差異，期望幫助到正在面臨選擇的朋友們！

差異最大的部份是api_v2.py改善了api.py的複雜配置，每個入口都留有配置的影子，這對於初次接觸的朋友來說會比較難以理解，接下來我們將針對兩個版本的API進行細部解析。

api.py

大致上比較複雜的地方會在「get_phones_and_bert」，這裡多了一些文字清洗、字音匹配、bert的流程，對於要細部調整發音的朋友來說或許會是一個重要的資訊，也歡迎一起分享對此原始碼的見解。

api_v2.py

與api.py差別在於將文字處理的部份抽象成TextPreprocessor，架構上更加簡潔易讀，對於二次開發的需求來說也較容易入門。

結語

當我們需要對於一個開源專案進行一些功能上的修改時，第一步就是要先解析專案組成的架構，並找出核心所在，最好的方法就是繪製成圖的方式，讓我們更快的進入狀況，以利我們能夠順利的修改。

#python

#TTS

#版本

阿Han的沙龍阿Han的軟體技術棧 💡AI

阿Han的沙龍

128會員

281內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

留言

留言分享你的想法！

阿Han的沙龍的其他內容

【🤖 cursor AI】如何使用MCP Server

我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器，使用起來大幅度的提昇開發效率，但仍有些問題點需要克服，比如說： LLM壓根不知道我們的數據庫長怎樣啊？怎麼分析結構呢？假設文檔又不足的狀況下更是艱辛，如果LLM

#Cursor #MCP #Model C

【語音合成技術 - MeloTTS】如何建置API服務？

我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術，該套GPT-SoVITS也非常的出色，但效能有點不是非常理想，加上需要GPU才能達到較佳的體驗，如此一來成本就會有點高了，因此我們找了另外一套MeloTTS，這一套強調CPU推理非常的快！

#python #TTS #安裝

【語音合成技術 - GPT-SoVITS】如何微調模型

精彩回顧【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務【語音合成技術 - GPT-SoVITS】如何架設API伺服器以上是我們過往分享過關於 https://github.com/RVC-Boss/GPT-SoVITS 的分享文章，這次我們要來試試fine

#TTS #python #模型