微軟最新語音技術 VibeVoice:能生成90分鐘多人對話的開源模型

更新於 發佈於 閱讀時間約 10 分鐘

VibeVoice 是微軟近期發布的一項尖端開源語音合成(Text-to-Speech, TTS)技術,它並非一款對一般消費者直接銷售的軟體,而是一個強大的底層模型,主要供給研究人員與開發者使用。其最引人注目的能力是能夠生成長達90分鐘、包含多達四位不同說話者的「超長篇」且富有情感的對話式音訊,為有聲書、Podcast製作、虛擬助理等應用場景帶來了新的可能性。

VibeVoice是什麼?

簡單來說,VibeVoice 是一個能將文字腳本轉換為極度逼真、自然的語音對話的AI模型。相較於傳統「逐字逐句」發音、語氣單調的TTS系統,VibeVoice 更擅長處理複雜的對話情境,能維持不同說話者音色的長期一致性,並在對話的節奏與情感上表現得更為自然。

主要特點包括:

* 超長音訊合成: 一次可生成最長90分鐘的音訊,突破了許多傳統模型在處理長篇內容時,音色容易「漂移」或語氣變得不連貫的技術瓶頸。

* 多說話者支援: 能夠在同一段音訊中,區分並生成多達四位不同角色的聲音,且能自然地進行對話輪替。

* 開源研究性質: VibeVoice 以 MIT 授權條款開源,鼓勵學術界與開發社群在此基礎上進行研究與二次開發,但微軟也明確指出,此模型目前僅供研究用途,並限制了其在即時語音複製等敏感領域的應用。

* 語言支援: 目前主要針對英語和中文進行了訓練。

VibeVoice 的運作原理

VibeVoice 的核心是一套創新的架構,它結合了大型語言模型(LLM)的強大理解能力與先進的音訊生成技術。其原理可以拆解為以下幾個關鍵部分:

1. 雙權杖化器架構 (Dual-Tokenizer Architecture)

這是VibeVoice的技術核心之一。它不使用單一的方式來「理解」聲音,而是透過兩個協同工作的「權杖化器」(Tokenizer)以極低的效率(7.5 Hz)將聲音資訊轉換為數據,大幅提升了處理長篇音訊的效率。

* 聲學權杖化器 (Acoustic Tokenizer): 此部分基於一種稱為「變分自動編碼器」(Variational Autoencoder, VAE)的技術,負責將原始的音訊波形壓縮成精簡的數據表示。這個過程不僅保留了聲音的物理特徵(如音高、音量),更重要的是成功地捕捉了說話者獨特的「音色」(Voice Timbre)。

* 語義權杖化器 (Semantic Tokenizer): 這個權杖化器則專注於理解聲音中的「內容」與「情感」。它透過類似於語音辨識(ASR)的任務進行訓練,能夠從聲音訊號中提取出文字對應的語義資訊,確保生成的語音在情感和上下文方面是準確的。

2. 大型語言模型 (LLM) 作為大腦

VibeVoice 的骨幹是一個大型語言模型(目前版本為 Qwen2.5-1.5B)。這個LLM扮演著如同「導演」般的角色。它負責閱讀輸入的文字腳本,理解整個對話的結構、上下文邏輯以及不同說話者之間的互動關係。LLM的強大推理能力是VibeVoice能夠生成自然流暢對話的關鍵。

3. 「下一權杖擴散」框架 (Next-Token Diffusion Framework)

在生成最終的音訊時,VibeVoice 採用了先進的「擴散模型」(Diffusion Model)。傳統模型可能一次性生成整段聲音,而VibeVoice則是透過「下一權杖預測」的方式,一步步地生成音訊。

具體來說,LLM會先根據文本預測出下一個音訊「權杖」應該是什麼樣子。接著,一個被稱為「擴散頭」(Diffusion Head)的模組會接收這個預測,並透過一個「去噪」的過程,反覆修正與細化,最終生成極度清晰且細節豐富的高保真度聲音。這個過程確保了音訊的品質與自然感。

總結來說,VibeVoice 的運作流程可以概括為:

* 輸入: 提供一段包含不同說話者標記的文字腳本,以及每位說話者簡短的聲音樣本(用以參考音色)。

* 權杖化: 雙權杖化器將聲音樣本轉換為聲學與語義數據。

* LLM處理: 大型語言模型分析腳本,理解對話流程。

* 擴散生成: 模型逐一預測音訊權杖,並透過擴散過程精煉成最終的音訊波形。

透過這套精密的架構,VibeVoice 成功地解決了長篇、多人語音合成中的諸多挑戰,為AI語音技術的發展樹立了新的里程碑。

可至https://github.com/microsoft/VibeVoice/下載測試其效果。

---

1️⃣ 環境需求

Python 3.10+

PyTorch (最好有 GPU,例如 CUDA 11.8)

依賴套件:transformers, accelerate, datasets, soundfile

安裝:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

pip install transformers accelerate datasets soundfile

---

2️⃣ Hugging Face 模型下載

模型路徑: 👉 microsoft/VibeVoice-1.5B

可以用 transformers 直接加載:

from transformers import AutoModelForCausalLM, AutoTokenizer

import torch

import soundfile as sf

# 載入 tokenizer 和模型

model_id = "microsoft/VibeVoice-1.5B"

tokenizer = AutoTokenizer.from_pretrained(model_id)

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.float16,

device_map="auto"

)

# 測試文字

prompt = """<|speaker1|>: Hello, welcome to the VibeVoice demo!

<|speaker2|>: Wow, this sounds really natural!"""

# 編碼

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

# 生成音頻

with torch.no_grad():

output = model.generate(**inputs, max_new_tokens=8000)

# 解碼音頻

audio_array = model.decode_to_audio(output)

# 儲存為 wav

sf.write("demo.wav", audio_array, 24000)

> ⚠️ 注意:生成音頻長度會依 max_new_tokens 而變,太大會耗時。

---

3️⃣ Colab Demo(零環境配置)

微軟官方提供了 Colab Notebook,可以直接執行:

👉 VibeVoice Demo Notebook

打開後只要:

1. 點選 Open in Colab

2. 選 GPU runtime

3. 修改輸入文字,就能直接生成對話語音檔。

---

4️⃣ Web 簡易 Demo (Gradio UI)


你也可以用 Gradio 做一個簡單的網頁介面:


import gradio as gr

import soundfile as sf

import numpy as np


def tts_generate(text):

inputs = tokenizer(text, return_tensors="pt").to(model.device)

with torch.no_grad():

output = model.generate(**inputs, max_new_tokens=8000)

audio_array = model.decode_to_audio(output)

return (24000, audio_array)


demo = gr.Interface(

fn=tts_generate,

inputs=gr.Textbox(lines=5, placeholder="輸入要轉語音的文字..."),

outputs=gr.Audio(type="numpy", label="生成語音"),

title="🎙 Microsoft VibeVoice Demo"

)

demo.launch()






留言
avatar-img
留言分享你的想法!
avatar-img
Hank吳的沙龍
0會員
82內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2025/08/20
每年農曆七月的尾聲,當夏日的暑氣漸消,蘭陽平原的海風帶來一絲涼意時,宜蘭頭城的空氣中便會開始瀰漫一股既莊嚴又躁動的氣息。數以萬計的人潮湧入這個寧靜的小鎮,目光全聚焦在那拔地而起、高聳入雲的巨大棚架「孤棚」。夜幕低垂,鑼鼓喧天,一場結合了宗教祭儀、民俗競技與集體記憶的年度盛事「頭城搶孤」正式拉開序幕。
2025/08/20
每年農曆七月的尾聲,當夏日的暑氣漸消,蘭陽平原的海風帶來一絲涼意時,宜蘭頭城的空氣中便會開始瀰漫一股既莊嚴又躁動的氣息。數以萬計的人潮湧入這個寧靜的小鎮,目光全聚焦在那拔地而起、高聳入雲的巨大棚架「孤棚」。夜幕低垂,鑼鼓喧天,一場結合了宗教祭儀、民俗競技與集體記憶的年度盛事「頭城搶孤」正式拉開序幕。
2025/08/19
壹・初見 霧,是這座山亙古不變的主人。 它纏繞著千年檜木的蒼勁枝幹,浸潤著每一寸 mossy 的青石,也模糊了人間與精怪的界線。石遠的家,就坐落在這片迷霧深處,一間以山石與原木搭建的小屋,孤獨地吐著炊煙,像是山巒沉穩的呼吸。 他是一名獵戶,卻有著與名號不符的溫和。他的箭矢只對準那些過度繁衍、威
2025/08/19
壹・初見 霧,是這座山亙古不變的主人。 它纏繞著千年檜木的蒼勁枝幹,浸潤著每一寸 mossy 的青石,也模糊了人間與精怪的界線。石遠的家,就坐落在這片迷霧深處,一間以山石與原木搭建的小屋,孤獨地吐著炊煙,像是山巒沉穩的呼吸。 他是一名獵戶,卻有著與名號不符的溫和。他的箭矢只對準那些過度繁衍、威
2025/08/19
👻 各位朋友, 隨著農曆七月的到來,空氣中彷彿也多了一絲慎重與神秘的氣息。明天就是中元節了,家家戶戶的普度盛宴想必都已在熱烈籌備中。在這個充滿敬意與傳統的時節,我想跟大家分享一個深藏在我心中,關於「阿嬤的紅色塑膠椅」的加長版故事。 每逢中元,我們家的騎樓就會變成一個臨時的露天辦桌現場。
2025/08/19
👻 各位朋友, 隨著農曆七月的到來,空氣中彷彿也多了一絲慎重與神秘的氣息。明天就是中元節了,家家戶戶的普度盛宴想必都已在熱烈籌備中。在這個充滿敬意與傳統的時節,我想跟大家分享一個深藏在我心中,關於「阿嬤的紅色塑膠椅」的加長版故事。 每逢中元,我們家的騎樓就會變成一個臨時的露天辦桌現場。
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
遇到故障申告或客服問題時,經常需要與語音系統對話,但這樣的狀況只會越來越多。這篇文章描述了作者與AI語音系統的故障申告對話過程,以及對未來科技與人性關係的思考。作者透過個人經驗探討了人與機器的互動,以及可能面臨的情感抽離和機械化。透過文章,探討了AI是否在訓練和影響人類,最終進化人類的人性。
Thumbnail
遇到故障申告或客服問題時,經常需要與語音系統對話,但這樣的狀況只會越來越多。這篇文章描述了作者與AI語音系統的故障申告對話過程,以及對未來科技與人性關係的思考。作者透過個人經驗探討了人與機器的互動,以及可能面臨的情感抽離和機械化。透過文章,探討了AI是否在訓練和影響人類,最終進化人類的人性。
Thumbnail
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
Thumbnail
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
Thumbnail
合成聲音技術的未來充滿希望,也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識,並共同探索如何有效地利用這項技術,同時保護公眾免受潛在的負面影響。
Thumbnail
合成聲音技術的未來充滿希望,也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識,並共同探索如何有效地利用這項技術,同時保護公眾免受潛在的負面影響。
Thumbnail
Character.AI發佈新功能Character Voice,nVidia在GTC 2024也介紹與Ubisoft巴黎工作室合作的NEO NPC專案,OpenAI註冊了「voice engine」和「digital voice assistants」這兩商標,到底暗示了什麼AI發展趨勢?
Thumbnail
Character.AI發佈新功能Character Voice,nVidia在GTC 2024也介紹與Ubisoft巴黎工作室合作的NEO NPC專案,OpenAI註冊了「voice engine」和「digital voice assistants」這兩商標,到底暗示了什麼AI發展趨勢?
Thumbnail
聲音經濟 (Voice Economy) 是指以聲音為基礎的商業模式、技術與應用,用於創造價值和增加用戶體驗。藉由 AI改變聲音的創作、傳播與消費,將大幅改變人們與科技和品牌互動的方式。本文探討了AI世代包括虛擬語音助理、智慧音箱、文字生成語音和Podcast等不容忽視的市場數據和商業機會。
Thumbnail
聲音經濟 (Voice Economy) 是指以聲音為基礎的商業模式、技術與應用,用於創造價值和增加用戶體驗。藉由 AI改變聲音的創作、傳播與消費,將大幅改變人們與科技和品牌互動的方式。本文探討了AI世代包括虛擬語音助理、智慧音箱、文字生成語音和Podcast等不容忽視的市場數據和商業機會。
Thumbnail
本文將探討人工智能對生活上的影響和改變,同時,例如規劃時間,安排選擇等等,附上一些建議與推薦工具。 在今天,大語言模型開通全球,我們可以輕易的使用人工智能對話,和他們對話,交流,討論,但是,除了娛樂以外,在生活上,我們還有什麼用法呢?
Thumbnail
本文將探討人工智能對生活上的影響和改變,同時,例如規劃時間,安排選擇等等,附上一些建議與推薦工具。 在今天,大語言模型開通全球,我們可以輕易的使用人工智能對話,和他們對話,交流,討論,但是,除了娛樂以外,在生活上,我們還有什麼用法呢?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News