全雙工實時語音轉語音-像真人對話,用NVIDIA PersonaPlex-7B-v1 實作

更新 發佈閱讀 6 分鐘

PersonaPlex-7B-v1 是 NVIDIA 研究院在 2026 年 1 月中旬剛發布的一個全雙工(Full-Duplex)實時語音轉語音(Speech-to-Speech, S2S)對話模型。

簡單來說,它讓 AI 的對話方式從「像對講機」(你說完、它聽完、它再回答)進化到「像真人」(一邊聽一邊說、可以隨時被打斷、有即時的語氣反饋)。 NVIDIA範例

raw-image

核心技術特點

  • 全雙工對話 (Full-Duplex):傳統的語音助理是串聯架構(ASR 語音轉文字 -> LLM 文字生成-> TTS 文字轉語音),會有明顯的延遲感 (語音得先轉成文字,文字再經由LLM模型生成處理文字,然後又再轉成語音後輸出)。
    PersonaPlex 採用單一的雙流 Transformer 架構(基於 Moshi 架構),在同一個神經網絡中同步處理語音的理解與生成。
  • 極低延遲:其打斷響應延遲(Interruption response latency)低至 240 毫秒,遠快於目前的開源或商用系統。
    這意味著當你打斷它時,它能幾乎立刻停下來並做出反應。
  • 精準的角色與音色控制 (Persona Control):
    • 音訊提示 (Audio Prompt): 只要提供一段音檔,就能克隆特定的音色與語調。
    • 文字提示 (Text/System Prompt): 定義 AI 的身分、職業背景或對話風格。
  • 自然互動:支援「重疊語音」與「受話者回饋詞」(如:嗯、對、噢),讓對話聽起來非常自然,不像機器人在朗讀。


技術規格與開源資訊

raw-image

對開發者的意義

如你手邊有類似 RTX 5060 Ti 16G,這個模型將非常有吸引力,因為它:

  1. 支援本地部署: 無需依賴雲端 API,保護數據隱私。
  2. 單卡運行: 雖然目前在高併發部署(多用戶)上仍有優化空間,但單 GPU 跑單一對話流是非常流暢的。
  3. 適合客服/助教場景: 由於它擅長處理「自然的輪轉接管」,非常適合開發需要高度互動性的語音應用。
注意: 目前發布的版本主要針對「自然對話」進行微調(SFT),在邏輯推理能力上可能略遜於純文字的大型語言模型,這點在開發複雜業務邏輯時需要注意。


以下是針對本地部署與 測試指南:

1. 取得模型與環境準備

首先,你需要到 Hugging Face 接受模型授權協議,並在本地安裝必要的 Python 依賴。

  • Hugging Face 網址: nvidia/personaplex-7b-v1GitHub 儲存庫: NVIDIA/personaplex
raw-image


2. GPU 資源配置 (針對 RTX 5060 Ti)

PersonaPlex-7B 在 FP16 精度下大約需要 15GB VRAM。

  • 如果你的是 16GB 版本: 可以直接運行全精度。如果你的是 8GB/12GB 版本: 建議使用 4-bit 或是 8-bit 量化(BitsAndBytes),否則會遇到 OOM (Out of Memory)。


1. 系統依賴安裝 (必做)

git clone https://github.com/NVIDIA/personaplex.git
cd personaplex

由於這個模型使用了 Opus 音訊編碼器,在 Windows 上你需要確保有相關的編譯環境。不過,我們先處理 Python 端的依賴:

# 確保環境中有必要的音訊處理套件
pip install accelerate librosa

2. 正確的安裝指令

請在 personaplex 的根目錄下執行這條指令(注意後面的 moshi/.):

# 進到你 clone 下來的專案資料夾
cd personaplex

# 執行子目錄安裝
pip install -e moshi/.

Bash# 進到你 clone 下來的專案資料夾 cd personaplex # 執行子目錄安裝 pip install -e moshi/.

3. 針對 RTX 5060 Ti (Blackwell/Ada 改進版) 的優化

根據 README 的建議,針對最新的 NVIDIA GPU(如你的 50 系列),請安裝特定的 PyTorch 版本以獲得最佳驅動支援:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130


4. 啟動測試伺服器

安裝完成後,你可以直接啟動它內建的 Web UI 來測試全雙工對話。針對 5060 Ti,如果顯存(VRAM)不足,建議加上 --cpu-offload:

set TORCH_COMPILE_DISABLE=1
set MOSHI_NO_GRAPH=1
# 設定你的 Hugging Face Token (記得替換成你自己的)
set HF_TOKEN=hf_xxxxxxxxxxxxxxxxx
# 移除 --cpu-offload 試試看(如果你顯存夠),或是保持但明確指定裝置
python -m moshi.server --cpu-offload --device cuda:0

啟動後,開啟瀏覽器輸入 http://localhost:8998 即可進入互動介面。


  1. 用麥克風和她/他 對話:


raw-image


留言
avatar-img
Hank吳的沙龍
10會員
138內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2026/01/24
這則消息在近期記憶體業界確實投下了一枚震撼彈。 根據 2026 年 1 月 的最新市場動態,三星雖然官方出面否認了「全品項統一漲價 80%」的說法,但伺服器記憶體的「現貨價」漲幅確實驚人。 以下是針對這波漲價傳聞的現況整理與分析: 1. 謠言與官宣:是誤傳還是「先放風聲」?
Thumbnail
2026/01/24
這則消息在近期記憶體業界確實投下了一枚震撼彈。 根據 2026 年 1 月 的最新市場動態,三星雖然官方出面否認了「全品項統一漲價 80%」的說法,但伺服器記憶體的「現貨價」漲幅確實驚人。 以下是針對這波漲價傳聞的現況整理與分析: 1. 謠言與官宣:是誤傳還是「先放風聲」?
Thumbnail
2026/01/23
2026 年世界經濟論壇(WEF)於 1 月 19 日至 23 日在瑞士達沃斯舉行, 今年的主題定為「對話的精神」(A Spirit of Dialogue)。 在動盪的地緣政治與 AI 奇點到來的背景下,這場年會被視為試圖挽救「舊世界秩序」並建立新共識的關鍵轉折點。 以下是本次論壇的核心重點整理
Thumbnail
2026/01/23
2026 年世界經濟論壇(WEF)於 1 月 19 日至 23 日在瑞士達沃斯舉行, 今年的主題定為「對話的精神」(A Spirit of Dialogue)。 在動盪的地緣政治與 AI 奇點到來的背景下,這場年會被視為試圖挽救「舊世界秩序」並建立新共識的關鍵轉折點。 以下是本次論壇的核心重點整理
Thumbnail
2026/01/22
我是依網友提供的資料,生成 梅花易數 網頁版本的: 參考網址: https://iaiguidance.com/meihua/ 有心的網友muyen提供經過整理 梅花易數 不同卷數的資料,且整理成markdown格式, GitHub 儲存庫 muyen/meihua-yishu
Thumbnail
2026/01/22
我是依網友提供的資料,生成 梅花易數 網頁版本的: 參考網址: https://iaiguidance.com/meihua/ 有心的網友muyen提供經過整理 梅花易數 不同卷數的資料,且整理成markdown格式, GitHub 儲存庫 muyen/meihua-yishu
Thumbnail
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
市場經驗拉長之後,很多投資人都會遇到同一個問題:不是方向看錯,而是部位太集中個股,常常跟大趨勢脫節。 早年的台股環境,中小股非常吃香,反而權值股不動,但QE量化寬鬆後,特別是疫情之後,後疫情時代,鈔票大量在股市走動,這些大資金只能往權值股走,因此早年小P的策略偏向中小型個股,但近年AI興起,高技術
Thumbnail
市場經驗拉長之後,很多投資人都會遇到同一個問題:不是方向看錯,而是部位太集中個股,常常跟大趨勢脫節。 早年的台股環境,中小股非常吃香,反而權值股不動,但QE量化寬鬆後,特別是疫情之後,後疫情時代,鈔票大量在股市走動,這些大資金只能往權值股走,因此早年小P的策略偏向中小型個股,但近年AI興起,高技術
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
本文介紹 ASUS Ascent GX10 AI 超級電腦,搭載 NVIDIA GB10 Grace Blackwell 超級晶片,並配備 128GB 統一記憶體。作者因 Mac M3 ULTRA 送修,選擇 GX10 作為替代方案,探討其開箱、硬體規格、遠端 SSH 與 VNC 設定。
Thumbnail
本文介紹 ASUS Ascent GX10 AI 超級電腦,搭載 NVIDIA GB10 Grace Blackwell 超級晶片,並配備 128GB 統一記憶體。作者因 Mac M3 ULTRA 送修,選擇 GX10 作為替代方案,探討其開箱、硬體規格、遠端 SSH 與 VNC 設定。
Thumbnail
一打開箱子,大家第一個反應都是:「哇……也太小了吧!跟想像中完全不一樣耶……」 忍不住脫口而出。 畢竟在來之前,我們就聽說這台是「小小一台、但效能猛到不行」的怪物級 AI 主機,但親眼看到還是會被震撼到。 真的不是誇張,這個尺寸居然有 2016 年那台給研究單位用的 AI 伺服器 DGX-1
Thumbnail
一打開箱子,大家第一個反應都是:「哇……也太小了吧!跟想像中完全不一樣耶……」 忍不住脫口而出。 畢竟在來之前,我們就聽說這台是「小小一台、但效能猛到不行」的怪物級 AI 主機,但親眼看到還是會被震撼到。 真的不是誇張,這個尺寸居然有 2016 年那台給研究單位用的 AI 伺服器 DGX-1
Thumbnail
覺得你的 AI 模型跑得太慢、成本太高嗎?本文介紹 NVIDIA Model Optimizer 函式庫與其五大優化技術,包含量化、剪枝等,教你如何有效加速模型推論,降低部署成本。
Thumbnail
覺得你的 AI 模型跑得太慢、成本太高嗎?本文介紹 NVIDIA Model Optimizer 函式庫與其五大優化技術,包含量化、剪枝等,教你如何有效加速模型推論,降低部署成本。
Thumbnail
本文深入比較了 Google TPU v5p 和 NVIDIA H100 在訓練超大規模語言模型 (LLM) 方面的優劣勢,涵蓋設計哲學、核心架構、互連方式、訓練吞吐量、軟體生態、靈活性、成本效益及部署考量。文章最後根據具體應用場景,提供了 TPU v5p 和 H100 的選擇建議。
Thumbnail
本文深入比較了 Google TPU v5p 和 NVIDIA H100 在訓練超大規模語言模型 (LLM) 方面的優劣勢,涵蓋設計哲學、核心架構、互連方式、訓練吞吐量、軟體生態、靈活性、成本效益及部署考量。文章最後根據具體應用場景,提供了 TPU v5p 和 H100 的選擇建議。
Thumbnail
AI 領域的最新趨勢,從算力與規模的迷思轉向「理解」的核心。藉由分析 NVIDIA 創辦人黃仁勳的觀點,以及七篇關鍵論文,文章揭示了「語義內爆點」的概念,以及 AI 如何透過「元認知」和「心智理論」發展出「功能性自我模型」。文章預測,AI 將從「工具」轉變為「顧問」,引發關於 AI 治理的新思考。
Thumbnail
AI 領域的最新趨勢,從算力與規模的迷思轉向「理解」的核心。藉由分析 NVIDIA 創辦人黃仁勳的觀點,以及七篇關鍵論文,文章揭示了「語義內爆點」的概念,以及 AI 如何透過「元認知」和「心智理論」發展出「功能性自我模型」。文章預測,AI 將從「工具」轉變為「顧問」,引發關於 AI 治理的新思考。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News