【語音合成技術 - GPT-SoVITS】解析API版本

更新 發佈閱讀 1 分鐘

我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務, 但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術, 因此我們可能會需要將API退回舊版, 在這裡我們也整理了早期版本api與api_v2的一些差異, 期望幫助到正在面臨選擇的朋友們!

raw-image



差異最大的部份是api_v2.py改善了api.py的複雜配置, 每個入口都留有配置的影子, 這對於初次接觸的朋友來說會比較難以理解, 接下來我們將針對兩個版本的API進行細部解析。


api.py

raw-image

大致上比較複雜的地方會在「get_phones_and_bert」, 這裡多了一些文字清洗、字音匹配、bert的流程, 對於要細部調整發音的朋友來說或許會是一個重要的資訊, 也歡迎一起分享對此原始碼的見解。


api_v2.py

raw-image

與api.py差別在於將文字處理的部份抽象成TextPreprocessor, 架構上更加簡潔易讀, 對於二次開發的需求來說也較容易入門。


結語

當我們需要對於一個開源專案進行一些功能上的修改時, 第一步就是要先解析專案組成的架構, 並找出核心所在, 最好的方法就是繪製成圖的方式, 讓我們更快的進入狀況, 以利我們能夠順利的修改。

留言
avatar-img
留言分享你的想法!
avatar-img
阿Han的沙龍
141會員
308內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
阿Han的沙龍的其他內容
2025/04/23
我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器, 使用起來大幅度的提昇開發效率, 但仍有些問題點需要克服, 比如說: LLM壓根不知道我們的數據庫長怎樣啊? 怎麼分析結構呢? 假設文檔又不足的狀況下更是艱辛, 如果LLM
Thumbnail
2025/04/23
我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器, 使用起來大幅度的提昇開發效率, 但仍有些問題點需要克服, 比如說: LLM壓根不知道我們的數據庫長怎樣啊? 怎麼分析結構呢? 假設文檔又不足的狀況下更是艱辛, 如果LLM
Thumbnail
2025/03/12
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
2025/03/12
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
2025/02/12
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 以上是我們過往分享過關於 https://github.com/RVC-Boss/GPT-SoVITS 的分享文章, 這次我們要來試試fine
Thumbnail
2025/02/12
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 以上是我們過往分享過關於 https://github.com/RVC-Boss/GPT-SoVITS 的分享文章, 這次我們要來試試fine
Thumbnail
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
AI 生產力工具是一款免費、開源的應用程式,適用於 Windows 系統,整合了 ChatGPT 聊天和多個 AI 圖片/影片調整功能。提供完整、輕量兩種版本,差別在於輕量版沒有 ChatGPT 聊天。
Thumbnail
AI 生產力工具是一款免費、開源的應用程式,適用於 Windows 系統,整合了 ChatGPT 聊天和多個 AI 圖片/影片調整功能。提供完整、輕量兩種版本,差別在於輕量版沒有 ChatGPT 聊天。
Thumbnail
今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。 這個開源的聲音克隆專案,融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型,和SoVITS(Speech-to-Video Voice Transformation Sys
Thumbnail
今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。 這個開源的聲音克隆專案,融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型,和SoVITS(Speech-to-Video Voice Transformation Sys
Thumbnail
從第一次使用到現在,使用GPT近一年的經驗分享。介紹在使用GPT時的困難、挑戰及學習到的技巧,以及如何讓GPT更好地理解所需內容。
Thumbnail
從第一次使用到現在,使用GPT近一年的經驗分享。介紹在使用GPT時的困難、挑戰及學習到的技巧,以及如何讓GPT更好地理解所需內容。
Thumbnail
合成聲音技術的未來充滿希望,也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識,並共同探索如何有效地利用這項技術,同時保護公眾免受潛在的負面影響。
Thumbnail
合成聲音技術的未來充滿希望,也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識,並共同探索如何有效地利用這項技術,同時保護公眾免受潛在的負面影響。
Thumbnail
這篇文章整理了多種好用的AI工具,涵蓋了聲音與音樂相關的AI、影音、圖像生成編輯工具和AI搜尋引擎等領域,幫助你節省時間和解放創意與生產力。
Thumbnail
這篇文章整理了多種好用的AI工具,涵蓋了聲音與音樂相關的AI、影音、圖像生成編輯工具和AI搜尋引擎等領域,幫助你節省時間和解放創意與生產力。
Thumbnail
本文介紹如何設置OpenAI API密鑰並使用Whisper API轉寫音訊檔案。文章詳細說明了轉寫單個音訊檔案,以及將長音訊分割並轉寫的過程。透過範例演示,讀者可以學習如何將音訊轉寫為文字,提高工作效率。
Thumbnail
本文介紹如何設置OpenAI API密鑰並使用Whisper API轉寫音訊檔案。文章詳細說明了轉寫單個音訊檔案,以及將長音訊分割並轉寫的過程。透過範例演示,讀者可以學習如何將音訊轉寫為文字,提高工作效率。
Thumbnail
OpenAI推出的Custom GPTs可以讓你自己量身製作符合你自己需求的AI助手,客製化AI工具喂給他不同的資料產生的結果好壞程度也差很多,好的AI工具能夠幫大家更有效率解決很多問題,不過因為製作門檻很低,有非常大量的客製化GPTs已經在OpenAI的ChatGPT上,這篇推薦給大家的是蒐集整理
Thumbnail
OpenAI推出的Custom GPTs可以讓你自己量身製作符合你自己需求的AI助手,客製化AI工具喂給他不同的資料產生的結果好壞程度也差很多,好的AI工具能夠幫大家更有效率解決很多問題,不過因為製作門檻很低,有非常大量的客製化GPTs已經在OpenAI的ChatGPT上,這篇推薦給大家的是蒐集整理
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News