方格子 vocus

全雙工實時語音轉語音-像真人對話，用NVIDIA PersonaPlex-7B-v1 實作

Hank吳

2026/01/26 更新2026/01/26 發佈閱讀 6 分鐘

PersonaPlex-7B-v1 是 NVIDIA 研究院在 2026 年 1 月中旬剛發布的一個全雙工（Full-Duplex）實時語音轉語音（Speech-to-Speech, S2S）對話模型。

簡單來說，它讓 AI 的對話方式從「像對講機」（你說完、它聽完、它再回答）進化到「像真人」（一邊聽一邊說、可以隨時被打斷、有即時的語氣反饋）。 NVIDIA範例

核心技術特點

全雙工對話 (Full-Duplex)：傳統的語音助理是串聯架構（ASR 語音轉文字 -> LLM 文字生成-> TTS 文字轉語音），會有明顯的延遲感 (語音得先轉成文字，文字再經由LLM模型生成處理文字，然後又再轉成語音後輸出)。
PersonaPlex 採用單一的雙流 Transformer 架構（基於 Moshi 架構），在同一個神經網絡中同步處理語音的理解與生成。
極低延遲：其打斷響應延遲（Interruption response latency）低至 240 毫秒，遠快於目前的開源或商用系統。
這意味著當你打斷它時，它能幾乎立刻停下來並做出反應。
精準的角色與音色控制 (Persona Control)：
- 音訊提示 (Audio Prompt)：只要提供一段音檔，就能克隆特定的音色與語調。
- 文字提示 (Text/System Prompt)：定義 AI 的身分、職業背景或對話風格。
自然互動：支援「重疊語音」與「受話者回饋詞」（如：嗯、對、噢），讓對話聽起來非常自然，不像機器人在朗讀。

技術規格與開源資訊

對開發者的意義

如你手邊有類似 RTX 5060 Ti 16G，這個模型將非常有吸引力，因為它：

支援本地部署：無需依賴雲端 API，保護數據隱私。
單卡運行：雖然目前在高併發部署（多用戶）上仍有優化空間，但單 GPU 跑單一對話流是非常流暢的。
適合客服/助教場景：由於它擅長處理「自然的輪轉接管」，非常適合開發需要高度互動性的語音應用。

注意：目前發布的版本主要針對「自然對話」進行微調（SFT），在邏輯推理能力上可能略遜於純文字的大型語言模型，這點在開發複雜業務邏輯時需要注意。

以下是針對本地部署與測試指南：

1. 取得模型與環境準備

首先，你需要到 Hugging Face 接受模型授權協議，並在本地安裝必要的 Python 依賴。

Hugging Face 網址： nvidia/personaplex-7b-v1GitHub 儲存庫： NVIDIA/personaplex

2. GPU 資源配置 (針對 RTX 5060 Ti)

PersonaPlex-7B 在 FP16 精度下大約需要 15GB VRAM。

如果你的是 16GB 版本：可以直接運行全精度。如果你的是 8GB/12GB 版本：建議使用 4-bit 或是 8-bit 量化（BitsAndBytes），否則會遇到 OOM (Out of Memory)。

1. 系統依賴安裝 (必做)

git clone https://github.com/NVIDIA/personaplex.git
cd personaplex

由於這個模型使用了 Opus 音訊編碼器，在 Windows 上你需要確保有相關的編譯環境。不過，我們先處理 Python 端的依賴：

# 確保環境中有必要的音訊處理套件
pip install accelerate librosa

2. 正確的安裝指令

請在 personaplex 的根目錄下執行這條指令（注意後面的 moshi/.）：

# 進到你 clone 下來的專案資料夾
cd personaplex

# 執行子目錄安裝
pip install -e moshi/.

Bash# 進到你 clone 下來的專案資料夾 cd personaplex # 執行子目錄安裝 pip install -e moshi/.

3. 針對 RTX 5060 Ti (Blackwell/Ada 改進版) 的優化

根據 README 的建議，針對最新的 NVIDIA GPU（如你的 50 系列），請安裝特定的 PyTorch 版本以獲得最佳驅動支援：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130

4. 啟動測試伺服器

安裝完成後，你可以直接啟動它內建的 Web UI 來測試全雙工對話。針對 5060 Ti，如果顯存（VRAM）不足，建議加上 --cpu-offload：

set TORCH_COMPILE_DISABLE=1
set MOSHI_NO_GRAPH=1
# 設定你的 Hugging Face Token (記得替換成你自己的)
set HF_TOKEN=hf_xxxxxxxxxxxxxxxxx
# 移除 --cpu-offload 試試看（如果你顯存夠），或是保持但明確指定裝置
python -m moshi.server --cpu-offload --device cuda:0

啟動後，開啟瀏覽器輸入 http://localhost:8998 即可進入互動介面。

用麥克風和她/他對話:

留言

Hank吳的沙龍

15會員

159內容數

這不僅僅是一個 Blog，更是一個交流與分享的空間。期待在這裡與你相遇，一起探索科技、體驗生活、夢想旅行！💖

Hank吳的沙龍的其他內容

2026/01/24

64GB RDIMM現貨價破2550美元，傳聞三星全線記憶體將調漲 80%?

這則消息在近期記憶體業界確實投下了一枚震撼彈。根據 2026 年 1 月的最新市場動態，三星雖然官方出面否認了「全品項統一漲價 80%」的說法，但伺服器記憶體的「現貨價」漲幅確實驚人。以下是針對這波漲價傳聞的現況整理與分析： 1. 謠言與官宣：是誤傳還是「先放風聲」？

2026/01/24

64GB RDIMM現貨價破2550美元，傳聞三星全線記憶體將調漲 80%?

2026/01/23

2026 世界經濟論壇（WEF），Dario Amodei 與 Demis Hassabis對AI 觀點震撼對談

2026 年世界經濟論壇（WEF）於 1 月 19 日至 23 日在瑞士達沃斯舉行，今年的主題定為「對話的精神」（A Spirit of Dialogue）。在動盪的地緣政治與 AI 奇點到來的背景下，這場年會被視為試圖挽救「舊世界秩序」並建立新共識的關鍵轉折點。以下是本次論壇的核心重點整理

2026/01/23

2026 世界經濟論壇（WEF），Dario Amodei 與 Demis Hassabis對AI 觀點震撼對談

2026/01/22

網友提供的「梅花易數」占卜markdown skill.md，轉換成網頁程式

我是依網友提供的資料，生成梅花易數網頁版本的: 參考網址: https://iaiguidance.com/meihua/ 有心的網友muyen提供經過整理梅花易數不同卷數的資料，且整理成markdown格式， GitHub 儲存庫 muyen/meihua-yishu

2026/01/22

網友提供的「梅花易數」占卜markdown skill.md，轉換成網頁程式

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11