vocus logo

方格子 vocus

全雙工實時語音轉語音-像真人對話,用NVIDIA PersonaPlex-7B-v1 實作

更新 發佈閱讀 6 分鐘

PersonaPlex-7B-v1 是 NVIDIA 研究院在 2026 年 1 月中旬剛發布的一個全雙工(Full-Duplex)實時語音轉語音(Speech-to-Speech, S2S)對話模型。

簡單來說,它讓 AI 的對話方式從「像對講機」(你說完、它聽完、它再回答)進化到「像真人」(一邊聽一邊說、可以隨時被打斷、有即時的語氣反饋)。 NVIDIA範例

raw-image

核心技術特點

  • 全雙工對話 (Full-Duplex):傳統的語音助理是串聯架構(ASR 語音轉文字 -> LLM 文字生成-> TTS 文字轉語音),會有明顯的延遲感 (語音得先轉成文字,文字再經由LLM模型生成處理文字,然後又再轉成語音後輸出)。
    PersonaPlex 採用單一的雙流 Transformer 架構(基於 Moshi 架構),在同一個神經網絡中同步處理語音的理解與生成。
  • 極低延遲:其打斷響應延遲(Interruption response latency)低至 240 毫秒,遠快於目前的開源或商用系統。
    這意味著當你打斷它時,它能幾乎立刻停下來並做出反應。
  • 精準的角色與音色控制 (Persona Control):
    • 音訊提示 (Audio Prompt): 只要提供一段音檔,就能克隆特定的音色與語調。
    • 文字提示 (Text/System Prompt): 定義 AI 的身分、職業背景或對話風格。
  • 自然互動:支援「重疊語音」與「受話者回饋詞」(如:嗯、對、噢),讓對話聽起來非常自然,不像機器人在朗讀。


技術規格與開源資訊

raw-image

對開發者的意義

如你手邊有類似 RTX 5060 Ti 16G,這個模型將非常有吸引力,因為它:

  1. 支援本地部署: 無需依賴雲端 API,保護數據隱私。
  2. 單卡運行: 雖然目前在高併發部署(多用戶)上仍有優化空間,但單 GPU 跑單一對話流是非常流暢的。
  3. 適合客服/助教場景: 由於它擅長處理「自然的輪轉接管」,非常適合開發需要高度互動性的語音應用。
注意: 目前發布的版本主要針對「自然對話」進行微調(SFT),在邏輯推理能力上可能略遜於純文字的大型語言模型,這點在開發複雜業務邏輯時需要注意。


以下是針對本地部署與 測試指南:

1. 取得模型與環境準備

首先,你需要到 Hugging Face 接受模型授權協議,並在本地安裝必要的 Python 依賴。

  • Hugging Face 網址: nvidia/personaplex-7b-v1GitHub 儲存庫: NVIDIA/personaplex
raw-image


2. GPU 資源配置 (針對 RTX 5060 Ti)

PersonaPlex-7B 在 FP16 精度下大約需要 15GB VRAM。

  • 如果你的是 16GB 版本: 可以直接運行全精度。如果你的是 8GB/12GB 版本: 建議使用 4-bit 或是 8-bit 量化(BitsAndBytes),否則會遇到 OOM (Out of Memory)。


1. 系統依賴安裝 (必做)

git clone https://github.com/NVIDIA/personaplex.git
cd personaplex

由於這個模型使用了 Opus 音訊編碼器,在 Windows 上你需要確保有相關的編譯環境。不過,我們先處理 Python 端的依賴:

# 確保環境中有必要的音訊處理套件
pip install accelerate librosa

2. 正確的安裝指令

請在 personaplex 的根目錄下執行這條指令(注意後面的 moshi/.):

# 進到你 clone 下來的專案資料夾
cd personaplex

# 執行子目錄安裝
pip install -e moshi/.

Bash# 進到你 clone 下來的專案資料夾 cd personaplex # 執行子目錄安裝 pip install -e moshi/.

3. 針對 RTX 5060 Ti (Blackwell/Ada 改進版) 的優化

根據 README 的建議,針對最新的 NVIDIA GPU(如你的 50 系列),請安裝特定的 PyTorch 版本以獲得最佳驅動支援:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130


4. 啟動測試伺服器

安裝完成後,你可以直接啟動它內建的 Web UI 來測試全雙工對話。針對 5060 Ti,如果顯存(VRAM)不足,建議加上 --cpu-offload:

set TORCH_COMPILE_DISABLE=1
set MOSHI_NO_GRAPH=1
# 設定你的 Hugging Face Token (記得替換成你自己的)
set HF_TOKEN=hf_xxxxxxxxxxxxxxxxx
# 移除 --cpu-offload 試試看(如果你顯存夠),或是保持但明確指定裝置
python -m moshi.server --cpu-offload --device cuda:0

啟動後,開啟瀏覽器輸入 http://localhost:8998 即可進入互動介面。


  1. 用麥克風和她/他 對話:


raw-image


留言
avatar-img
Hank吳的沙龍
15會員
159內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2026/01/24
這則消息在近期記憶體業界確實投下了一枚震撼彈。 根據 2026 年 1 月 的最新市場動態,三星雖然官方出面否認了「全品項統一漲價 80%」的說法,但伺服器記憶體的「現貨價」漲幅確實驚人。 以下是針對這波漲價傳聞的現況整理與分析: 1. 謠言與官宣:是誤傳還是「先放風聲」?
Thumbnail
2026/01/24
這則消息在近期記憶體業界確實投下了一枚震撼彈。 根據 2026 年 1 月 的最新市場動態,三星雖然官方出面否認了「全品項統一漲價 80%」的說法,但伺服器記憶體的「現貨價」漲幅確實驚人。 以下是針對這波漲價傳聞的現況整理與分析: 1. 謠言與官宣:是誤傳還是「先放風聲」?
Thumbnail
2026/01/23
2026 年世界經濟論壇(WEF)於 1 月 19 日至 23 日在瑞士達沃斯舉行, 今年的主題定為「對話的精神」(A Spirit of Dialogue)。 在動盪的地緣政治與 AI 奇點到來的背景下,這場年會被視為試圖挽救「舊世界秩序」並建立新共識的關鍵轉折點。 以下是本次論壇的核心重點整理
Thumbnail
2026/01/23
2026 年世界經濟論壇(WEF)於 1 月 19 日至 23 日在瑞士達沃斯舉行, 今年的主題定為「對話的精神」(A Spirit of Dialogue)。 在動盪的地緣政治與 AI 奇點到來的背景下,這場年會被視為試圖挽救「舊世界秩序」並建立新共識的關鍵轉折點。 以下是本次論壇的核心重點整理
Thumbnail
2026/01/22
我是依網友提供的資料,生成 梅花易數 網頁版本的: 參考網址: https://iaiguidance.com/meihua/ 有心的網友muyen提供經過整理 梅花易數 不同卷數的資料,且整理成markdown格式, GitHub 儲存庫 muyen/meihua-yishu
Thumbnail
2026/01/22
我是依網友提供的資料,生成 梅花易數 網頁版本的: 參考網址: https://iaiguidance.com/meihua/ 有心的網友muyen提供經過整理 梅花易數 不同卷數的資料,且整理成markdown格式, GitHub 儲存庫 muyen/meihua-yishu
Thumbnail
看更多
你可能也想看
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
本文介紹 ASUS Ascent GX10 AI 超級電腦,搭載 NVIDIA GB10 Grace Blackwell 超級晶片,並配備 128GB 統一記憶體。作者因 Mac M3 ULTRA 送修,選擇 GX10 作為替代方案,探討其開箱、硬體規格、遠端 SSH 與 VNC 設定。
Thumbnail
本文介紹 ASUS Ascent GX10 AI 超級電腦,搭載 NVIDIA GB10 Grace Blackwell 超級晶片,並配備 128GB 統一記憶體。作者因 Mac M3 ULTRA 送修,選擇 GX10 作為替代方案,探討其開箱、硬體規格、遠端 SSH 與 VNC 設定。
Thumbnail
一打開箱子,大家第一個反應都是:「哇……也太小了吧!跟想像中完全不一樣耶……」 忍不住脫口而出。 畢竟在來之前,我們就聽說這台是「小小一台、但效能猛到不行」的怪物級 AI 主機,但親眼看到還是會被震撼到。 真的不是誇張,這個尺寸居然有 2016 年那台給研究單位用的 AI 伺服器 DGX-1
Thumbnail
一打開箱子,大家第一個反應都是:「哇……也太小了吧!跟想像中完全不一樣耶……」 忍不住脫口而出。 畢竟在來之前,我們就聽說這台是「小小一台、但效能猛到不行」的怪物級 AI 主機,但親眼看到還是會被震撼到。 真的不是誇張,這個尺寸居然有 2016 年那台給研究單位用的 AI 伺服器 DGX-1
Thumbnail
覺得你的 AI 模型跑得太慢、成本太高嗎?本文介紹 NVIDIA Model Optimizer 函式庫與其五大優化技術,包含量化、剪枝等,教你如何有效加速模型推論,降低部署成本。
Thumbnail
覺得你的 AI 模型跑得太慢、成本太高嗎?本文介紹 NVIDIA Model Optimizer 函式庫與其五大優化技術,包含量化、剪枝等,教你如何有效加速模型推論,降低部署成本。
Thumbnail
本文深入比較了 Google TPU v5p 和 NVIDIA H100 在訓練超大規模語言模型 (LLM) 方面的優劣勢,涵蓋設計哲學、核心架構、互連方式、訓練吞吐量、軟體生態、靈活性、成本效益及部署考量。文章最後根據具體應用場景,提供了 TPU v5p 和 H100 的選擇建議。
Thumbnail
本文深入比較了 Google TPU v5p 和 NVIDIA H100 在訓練超大規模語言模型 (LLM) 方面的優劣勢,涵蓋設計哲學、核心架構、互連方式、訓練吞吐量、軟體生態、靈活性、成本效益及部署考量。文章最後根據具體應用場景,提供了 TPU v5p 和 H100 的選擇建議。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News