【語音合成技術 - GPT-SoVITS】如何架設API伺服器

2025/01/22 更新2025/01/22 發佈閱讀 6 分鐘

我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」介紹過如何透過docker啟動webui版的TTS服務器，但假設我們想自行開發一個TTS服務，並整合到系統裡面，通常會需要一個傳輸介面來溝通，而API就是最簡易的溝通方式，正巧 ****GPT-SoVITS ****也提供了API介面，只是在架設時我們要稍微修改一下配置即可。

在2024/10/18前， https://github.com/RVC-Boss/GPT-SoVITS 專案有在 fast_inference_ 這個Branch開發了api_v3 這個API介面，只是尚未合併進入到主線，因此我們可以先來試用看看，但並不是那麼的無痛，沒關係！跟著我們的步驟做，會讓您輕鬆的架設起屬於自己的API伺服器。

首先我們為您導覽一下怎麼做？

👉 接下來請你跟我這樣做

下載專案

git clone <https://github.com/RVC-Boss/GPT-SoVITS.git>
cd GPT-SoVITS

切到 fast_inference_ 分支


git checkout fast_inference_

Build Docker Image

./dockerbuild.sh

改docker compose配置

我們會需要加入command來執行api_v3

command:
      - python
      - api_v3.py

整個compose配置檔送給您：

version: '3.8'

services:
  gpt-sovits:
    image: breakstring/gpt-sovits:latest   # please change the image name and tag base your environment. If the tag contains the word 'elite', such as "latest-elite", it indicates that the image does not include the necessary models such as GPT-SoVITS, UVR5, Damo ASR, etc. You will need to download them yourself and map them into the container.
    container_name: gpt-sovits-container
    environment:
      - is_half=False
      - is_share=False
    volumes:
      - ./output:/workspace/output
      - ./logs:/workspace/logs
      - ./SoVITS_weights:/workspace/SoVITS_weights
      - ./reference:/workspace/reference
    command:
      - python
      - api_v3.py
    working_dir: /workspace
    ports:
      - "9880:9880"
      - "9871:9871"
      - "9872:9872"
      - "9873:9873"
      - "9874:9874"
    shm_size: 16G
    deploy:
      resources:
        reservations:
          devices:
          - driver: nvidia
            count: "all"
            capabilities: [gpu]
    stdin_open: true
    tty: true
    restart: unless-stopped

⭐️ 隱藏細節 - 掛載範例音檔

這邊要請您將一段5-10秒的範例音檔掛載到伺服器，這樣我們產生tts語音的時候就能夠仿造範例音檔進行輸出。


|- reference
	|- sample.wav

接著我們啟動服務

docker compose up -d

試試以下的API

http://localhost:9880/tts?text=春天的花朵盛開鳥兒在樹上唱歌陽光灑在大地&text_lang=zh&ref_audio_path=reference/sample.mp3&prompt_lang=zh&text_split_method=cut5&batch_size=1&media_type=wav&streaming_mode=false&batch_size=4

我們在網頁上就能夠播放TTS所產生的音檔。

結語

假設我們想另外開發TTS的系統進行串接時， API就顯得非常重要，也是最簡單的介接媒介，因此學會 https://github.com/RVC-Boss/GPT-SoVITS 能夠讓我們更彈性的開發自己的TTS服務系統。

阿Han的沙龍阿Han的軟體技術棧 💡AI

留言

留言分享你的想法！

阿Han的沙龍

141會員

307內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2025/04/23

【🤖 cursor AI】如何使用MCP Server

我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器，使用起來大幅度的提昇開發效率，但仍有些問題點需要克服，比如說： LLM壓根不知道我們的數據庫長怎樣啊？怎麼分析結構呢？假設文檔又不足的狀況下更是艱辛，如果LLM

2025/04/23

【🤖 cursor AI】如何使用MCP Server

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術，該套GPT-SoVITS也非常的出色，但效能有點不是非常理想，加上需要GPU才能達到較佳的體驗，如此一來成本就會有點高了，因此我們找了另外一套MeloTTS，這一套強調CPU推理非常的快！

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務，但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術，因此我們可能會需要將API退回舊版，在這裡我們也整理了早期版本api與api_v2的一些差異，期望幫助到正在面臨選

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15