【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務

更新 發佈閱讀 6 分鐘
raw-image


今天要分享的主題是關於「語音合成技術 - TTS」一款好用的開源軟體, 名為「GPT-SoVITS」, 它具有以下的特點:

  • 零樣本(Zero Shot): 只需要五秒鐘的語音樣本就能即時文字轉語音。
  • 少量樣本(Few Shot): 只要1分鐘樣本就能提高語音相似度及真實感。
  • 跨語言: 日語、英語、韓語、中文…。
  • UI: 提供Web介面, 讓我們使用更加的便利。


用docker compose來啟動看看

這邊我們建議Docker的原因歡迎參考「【Docker 容器化】初探微服務時代的虛擬化技術」, 主要是讓我們的應用程式與作業系統分割乾淨, 避免互相影響, 因此我們會使用Docker來進行操作。


git clone <https://github.com/RVC-Boss/GPT-SoVITS.git>

docker compose up -d
version: '3.8'

services:
gpt-sovits-webui:
image: breakstring/gpt-sovits:latest # please change the image name and tag base your environment. If the tag contains the word 'elite', such as "latest-elite", it indicates that the image does not include the necessary models such as GPT-SoVITS, UVR5, Damo ASR, etc. You will need to download them yourself and map them into the container.
container_name: gpt-sovits-webui
environment:
- is_half=False
- is_share=False
volumes:
- ./output:/workspace/output
- ./logs:/workspace/logs
- ./SoVITS_weights:/workspace/SoVITS_weights
- ./reference:/workspace/reference
- ./iic:/workspace/iic
working_dir: /workspace
ports:
- "9871:9871"
- "9872:9872"
- "9873:9873"
- "9874:9874"
shm_size: 16G
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: "all"
capabilities: [gpu]
stdin_open: true
tty: true
restart: unless-stopped



站台介紹

raw-image


🕵️‍♂️ 來試試推理TTS語音吧

這個步驟是一個zero-shot的示範, 使用短短的人聲樣本就能夠產生出相似的聲音。


首先我們透過 http://localhost:9874 進入到入口頁面並根據以下步驟點擊功能。

  1. 接著我們切到「1-GPT-SOVITS-TTS」這個頁籤。
  2. 再切到「1C-inference」的子頁面。
  3. 最後再句選「Open TTS inference WEBUI」打開推理頁面。
raw-image



正常來說會彈跳出推理頁面, 但有些瀏覽器或作業系統環境並不會自動跳出, 沒關係, 我們可以根據前面標題的站台介紹來自行開啟 http://localhost:9872/ 這個頁面, 預計您會看到以下畫面。

raw-image



在這邊我們可以上傳我們的範例音檔, 並在右側文字框輸入期望輸出的語音文字。

raw-image



填上相關參數之後, 按下推理之後就能夠產生音訊資料了, 這邊就不針對參數進行細部說明了, 有興趣的朋友可以自行使用ChatGPT或者閱覽官方文檔去進行細緻的微調。

raw-image



結語

今天的主題著重在使用Docker進行伺服器的架設, 並簡易的玩玩TTS服務, 後續我們會針對各個功能進行詳細的介紹, 歡迎追蹤我們的頻道, 讓我們共同學習更多關於 GPT-SoVITS 的知識。

留言
avatar-img
留言分享你的想法!
avatar-img
阿Han的沙龍
139會員
304內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
阿Han的沙龍的其他內容
2025/04/23
我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器, 使用起來大幅度的提昇開發效率, 但仍有些問題點需要克服, 比如說: LLM壓根不知道我們的數據庫長怎樣啊? 怎麼分析結構呢? 假設文檔又不足的狀況下更是艱辛, 如果LLM
Thumbnail
2025/04/23
我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器, 使用起來大幅度的提昇開發效率, 但仍有些問題點需要克服, 比如說: LLM壓根不知道我們的數據庫長怎樣啊? 怎麼分析結構呢? 假設文檔又不足的狀況下更是艱辛, 如果LLM
Thumbnail
2025/03/12
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
2025/03/12
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
2025/03/05
我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務, 但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術, 因此我們可能會需要將API退回舊版, 在這裡我們也整理了早期版本api與api_v2的一些差異, 期望幫助到正在面臨選
Thumbnail
2025/03/05
我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務, 但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術, 因此我們可能會需要將API退回舊版, 在這裡我們也整理了早期版本api與api_v2的一些差異, 期望幫助到正在面臨選
Thumbnail
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 【語音合成技術 - GPT-SoVITS】如何微調模型 建議先閱讀我們的 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務
Thumbnail
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 【語音合成技術 - GPT-SoVITS】如何微調模型 建議先閱讀我們的 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務
Thumbnail
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 以上是我們過往分享過關於 https://github.com/RVC-Boss/GPT-SoVITS 的分享文章, 這次我們要來試試fine
Thumbnail
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 以上是我們過往分享過關於 https://github.com/RVC-Boss/GPT-SoVITS 的分享文章, 這次我們要來試試fine
Thumbnail
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」介紹過如何透過docker啟動webui版的TTS服務器, 但假設我們想自行開發一個TTS服務, 並整合到系統裡面, 通常會需要一個傳輸介面來溝通, 而API就是最簡易的溝通方式, 正巧 ****GPT-SoVITS **
Thumbnail
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」介紹過如何透過docker啟動webui版的TTS服務器, 但假設我們想自行開發一個TTS服務, 並整合到系統裡面, 通常會需要一個傳輸介面來溝通, 而API就是最簡易的溝通方式, 正巧 ****GPT-SoVITS **
Thumbnail
今天要分享的主題是關於「語音合成技術 - TTS」一款好用的開源軟體, 名為「GPT-SoVITS」, 它具有以下的特點: 零樣本(Zero Shot): 只需要五秒鐘的語音樣本就能即時文字轉語音。 少量樣本(Few Shot): 只要1分鐘樣本就能提高語音相似度及真實感。 跨語言: 日語
Thumbnail
今天要分享的主題是關於「語音合成技術 - TTS」一款好用的開源軟體, 名為「GPT-SoVITS」, 它具有以下的特點: 零樣本(Zero Shot): 只需要五秒鐘的語音樣本就能即時文字轉語音。 少量樣本(Few Shot): 只要1分鐘樣本就能提高語音相似度及真實感。 跨語言: 日語
Thumbnail
今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。 這個開源的聲音克隆專案,融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型,和SoVITS(Speech-to-Video Voice Transformation Sys
Thumbnail
今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。 這個開源的聲音克隆專案,融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型,和SoVITS(Speech-to-Video Voice Transformation Sys
Thumbnail
Meet Audiogest — 借助人工智慧實現轉錄。享受註冊時的 40 分鐘免費試用,使用 Whisper 和 Pyannote 進行說話人分離,並使用 GPT-4 生成摘要。沒有訂閱費,只需提前充值積分,方便快捷。立即簡化您的音訊任務。
Thumbnail
Meet Audiogest — 借助人工智慧實現轉錄。享受註冊時的 40 分鐘免費試用,使用 Whisper 和 Pyannote 進行說話人分離,並使用 GPT-4 生成摘要。沒有訂閱費,只需提前充值積分,方便快捷。立即簡化您的音訊任務。
Thumbnail
本文介紹了一種全程免費的方法來快速將長時間的音檔轉為逐字稿,不需要花費任何費用。作者建議使用OpenAI的Playground,其中有一個語音轉文字的功能,並支援多種語言。相較於其他需要付費的AI語音轉文字程式,OpenAI的Playground效果非常好,是會議記錄人員的福音。現在,你不需要再花費
Thumbnail
本文介紹了一種全程免費的方法來快速將長時間的音檔轉為逐字稿,不需要花費任何費用。作者建議使用OpenAI的Playground,其中有一個語音轉文字的功能,並支援多種語言。相較於其他需要付費的AI語音轉文字程式,OpenAI的Playground效果非常好,是會議記錄人員的福音。現在,你不需要再花費
Thumbnail
本篇文章在分享親身體驗使用AI輔助創作的過程。文章中可以看到作者第一手的經驗與描述,如何運用ChatGPT、Midjourney、Speech to Text、Autotag等眾多工具來進行輔助,以及最終的成果
Thumbnail
本篇文章在分享親身體驗使用AI輔助創作的過程。文章中可以看到作者第一手的經驗與描述,如何運用ChatGPT、Midjourney、Speech to Text、Autotag等眾多工具來進行輔助,以及最終的成果
Thumbnail
TTS文字轉語音應用特色 1. TTS主要功能 將text文字檔的內容,轉換為wav檔,可送到Buffer,播放軟體可以讀取buffer做聲音後處理 能自動判斷前後文,自動判斷常用多音字、年份、日期、時間、電話、數字、%
Thumbnail
TTS文字轉語音應用特色 1. TTS主要功能 將text文字檔的內容,轉換為wav檔,可送到Buffer,播放軟體可以讀取buffer做聲音後處理 能自動判斷前後文,自動判斷常用多音字、年份、日期、時間、電話、數字、%
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News