【語音合成技術 - GPT-SoVITS】如何架設API伺服器

更新於 發佈於 閱讀時間約 6 分鐘

我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」介紹過如何透過docker啟動webui版的TTS服務器, 但假設我們想自行開發一個TTS服務, 並整合到系統裡面, 通常會需要一個傳輸介面來溝通, 而API就是最簡易的溝通方式, 正巧 ****GPT-SoVITS ****也提供了API介面, 只是在架設時我們要稍微修改一下配置即可。


在2024/10/18前, https://github.com/RVC-Boss/GPT-SoVITS 專案有在 fast_inference_ 這個Branch開發了api_v3 這個API介面, 只是尚未合併進入到主線, 因此我們可以先來試用看看, 但並不是那麼的無痛, 沒關係! 跟著我們的步驟做, 會讓您輕鬆的架設起屬於自己的API伺服器。


首先我們為您導覽一下怎麼做?

raw-image


👉 接下來請你跟我這樣做

下載專案

git clone <https://github.com/RVC-Boss/GPT-SoVITS.git>
cd GPT-SoVITS



切到 fast_inference_ 分支


git checkout fast_inference_



Build Docker Image

./dockerbuild.sh



改docker compose配置

我們會需要加入command來執行api_v3

command:
- python
- api_v3.py


整個compose配置檔送給您:

version: '3.8'

services:
gpt-sovits:
image: breakstring/gpt-sovits:latest # please change the image name and tag base your environment. If the tag contains the word 'elite', such as "latest-elite", it indicates that the image does not include the necessary models such as GPT-SoVITS, UVR5, Damo ASR, etc. You will need to download them yourself and map them into the container.
container_name: gpt-sovits-container
environment:
- is_half=False
- is_share=False
volumes:
- ./output:/workspace/output
- ./logs:/workspace/logs
- ./SoVITS_weights:/workspace/SoVITS_weights
- ./reference:/workspace/reference
command:
- python
- api_v3.py
working_dir: /workspace
ports:
- "9880:9880"
- "9871:9871"
- "9872:9872"
- "9873:9873"
- "9874:9874"
shm_size: 16G
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: "all"
capabilities: [gpu]
stdin_open: true
tty: true
restart: unless-stopped



⭐️ 隱藏細節 - 掛載範例音檔

這邊要請您將一段5-10秒的範例音檔掛載到伺服器, 這樣我們產生tts語音的時候就能夠仿造範例音檔進行輸出。


|- reference
|- sample.wav



接著我們啟動服務

docker compose up -d



試試以下的API

http://localhost:9880/tts?text=春天的花朵盛開鳥兒在樹上唱歌陽光灑在大地&text_lang=zh&ref_audio_path=reference/sample.mp3&prompt_lang=zh&text_split_method=cut5&batch_size=1&media_type=wav&streaming_mode=false&batch_size=4


我們在網頁上就能夠播放TTS所產生的音檔。

raw-image



結語

假設我們想另外開發TTS的系統進行串接時, API就顯得非常重要, 也是最簡單的介接媒介, 因此學會 https://github.com/RVC-Boss/GPT-SoVITS 能夠讓我們更彈性的開發自己的TTS服務系統。

留言
avatar-img
留言分享你的想法!
avatar-img
阿Han的沙龍
130會員
288內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
阿Han的沙龍的其他內容
2025/04/23
我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器, 使用起來大幅度的提昇開發效率, 但仍有些問題點需要克服, 比如說: LLM壓根不知道我們的數據庫長怎樣啊? 怎麼分析結構呢? 假設文檔又不足的狀況下更是艱辛, 如果LLM
Thumbnail
2025/04/23
我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器, 使用起來大幅度的提昇開發效率, 但仍有些問題點需要克服, 比如說: LLM壓根不知道我們的數據庫長怎樣啊? 怎麼分析結構呢? 假設文檔又不足的狀況下更是艱辛, 如果LLM
Thumbnail
2025/03/12
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
2025/03/12
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
2025/03/05
我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務, 但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術, 因此我們可能會需要將API退回舊版, 在這裡我們也整理了早期版本api與api_v2的一些差異, 期望幫助到正在面臨選
Thumbnail
2025/03/05
我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務, 但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術, 因此我們可能會需要將API退回舊版, 在這裡我們也整理了早期版本api與api_v2的一些差異, 期望幫助到正在面臨選
Thumbnail
看更多
你可能也想看
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 【語音合成技術 - GPT-SoVITS】如何微調模型 建議先閱讀我們的 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務
Thumbnail
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 【語音合成技術 - GPT-SoVITS】如何微調模型 建議先閱讀我們的 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務
Thumbnail
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 以上是我們過往分享過關於 https://github.com/RVC-Boss/GPT-SoVITS 的分享文章, 這次我們要來試試fine
Thumbnail
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 以上是我們過往分享過關於 https://github.com/RVC-Boss/GPT-SoVITS 的分享文章, 這次我們要來試試fine
Thumbnail
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」介紹過如何透過docker啟動webui版的TTS服務器, 但假設我們想自行開發一個TTS服務, 並整合到系統裡面, 通常會需要一個傳輸介面來溝通, 而API就是最簡易的溝通方式, 正巧 ****GPT-SoVITS **
Thumbnail
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」介紹過如何透過docker啟動webui版的TTS服務器, 但假設我們想自行開發一個TTS服務, 並整合到系統裡面, 通常會需要一個傳輸介面來溝通, 而API就是最簡易的溝通方式, 正巧 ****GPT-SoVITS **
Thumbnail
今天要分享的主題是關於「語音合成技術 - TTS」一款好用的開源軟體, 名為「GPT-SoVITS」, 它具有以下的特點: 零樣本(Zero Shot): 只需要五秒鐘的語音樣本就能即時文字轉語音。 少量樣本(Few Shot): 只要1分鐘樣本就能提高語音相似度及真實感。 跨語言: 日語
Thumbnail
今天要分享的主題是關於「語音合成技術 - TTS」一款好用的開源軟體, 名為「GPT-SoVITS」, 它具有以下的特點: 零樣本(Zero Shot): 只需要五秒鐘的語音樣本就能即時文字轉語音。 少量樣本(Few Shot): 只要1分鐘樣本就能提高語音相似度及真實感。 跨語言: 日語
Thumbnail
今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。 這個開源的聲音克隆專案,融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型,和SoVITS(Speech-to-Video Voice Transformation Sys
Thumbnail
今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。 這個開源的聲音克隆專案,融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型,和SoVITS(Speech-to-Video Voice Transformation Sys
Thumbnail
從最初的接觸到深度的投懷送抱,這篇文章對於解決如何安裝text-generation-webui提供了清晰的指引。 它引導讀者通過它的官方方式和Docker方式做到這一點。此外,作者還分享了必要的優化建議。
Thumbnail
從最初的接觸到深度的投懷送抱,這篇文章對於解決如何安裝text-generation-webui提供了清晰的指引。 它引導讀者通過它的官方方式和Docker方式做到這一點。此外,作者還分享了必要的優化建議。
Thumbnail
大家好,我是Hivan。 好久不见了,今天我们来讨论下如何让机器拥有声音。 回顾一下我们上一讲的内容,我们已经成功使用Whisper模型使得AI能够理解我们说的话。这为我们带来了很多应用,例如让AI代替我们收听播客并总结内容。然而,这只是单向的交流模式。现在,让我们探索更深入的可能性,让AI
Thumbnail
大家好,我是Hivan。 好久不见了,今天我们来讨论下如何让机器拥有声音。 回顾一下我们上一讲的内容,我们已经成功使用Whisper模型使得AI能够理解我们说的话。这为我们带来了很多应用,例如让AI代替我们收听播客并总结内容。然而,这只是单向的交流模式。现在,让我们探索更深入的可能性,让AI
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News