PersonaPlex-7B-v1 是 NVIDIA 研究院在 2026 年 1 月中旬剛發布的一個全雙工(Full-Duplex)實時語音轉語音(Speech-to-Speech, S2S)對話模型。
簡單來說,它讓 AI 的對話方式從「像對講機」(你說完、它聽完、它再回答)進化到「像真人」(一邊聽一邊說、可以隨時被打斷、有即時的語氣反饋)。 NVIDIA範例

核心技術特點
- 全雙工對話 (Full-Duplex):傳統的語音助理是串聯架構(ASR 語音轉文字 -> LLM 文字生成-> TTS 文字轉語音),會有明顯的延遲感 (語音得先轉成文字,文字再經由LLM模型生成處理文字,然後又再轉成語音後輸出)。
PersonaPlex 採用單一的雙流 Transformer 架構(基於 Moshi 架構),在同一個神經網絡中同步處理語音的理解與生成。 - 極低延遲:其打斷響應延遲(Interruption response latency)低至 240 毫秒,遠快於目前的開源或商用系統。
這意味著當你打斷它時,它能幾乎立刻停下來並做出反應。 - 精準的角色與音色控制 (Persona Control):
- 音訊提示 (Audio Prompt): 只要提供一段音檔,就能克隆特定的音色與語調。
- 文字提示 (Text/System Prompt): 定義 AI 的身分、職業背景或對話風格。
- 自然互動:支援「重疊語音」與「受話者回饋詞」(如:嗯、對、噢),讓對話聽起來非常自然,不像機器人在朗讀。
技術規格與開源資訊

對開發者的意義
如你手邊有類似 RTX 5060 Ti 16G,這個模型將非常有吸引力,因為它:
- 支援本地部署: 無需依賴雲端 API,保護數據隱私。
- 單卡運行: 雖然目前在高併發部署(多用戶)上仍有優化空間,但單 GPU 跑單一對話流是非常流暢的。
- 適合客服/助教場景: 由於它擅長處理「自然的輪轉接管」,非常適合開發需要高度互動性的語音應用。
注意: 目前發布的版本主要針對「自然對話」進行微調(SFT),在邏輯推理能力上可能略遜於純文字的大型語言模型,這點在開發複雜業務邏輯時需要注意。
以下是針對本地部署與 測試指南:
1. 取得模型與環境準備
首先,你需要到 Hugging Face 接受模型授權協議,並在本地安裝必要的 Python 依賴。
- Hugging Face 網址: nvidia/personaplex-7b-v1GitHub 儲存庫: NVIDIA/personaplex

2. GPU 資源配置 (針對 RTX 5060 Ti)
PersonaPlex-7B 在 FP16 精度下大約需要 15GB VRAM。
- 如果你的是 16GB 版本: 可以直接運行全精度。如果你的是 8GB/12GB 版本: 建議使用 4-bit 或是 8-bit 量化(BitsAndBytes),否則會遇到 OOM (Out of Memory)。
1. 系統依賴安裝 (必做)
git clone https://github.com/NVIDIA/personaplex.git
cd personaplex
由於這個模型使用了 Opus 音訊編碼器,在 Windows 上你需要確保有相關的編譯環境。不過,我們先處理 Python 端的依賴:
# 確保環境中有必要的音訊處理套件
pip install accelerate librosa
2. 正確的安裝指令
請在 personaplex 的根目錄下執行這條指令(注意後面的 moshi/.):
# 進到你 clone 下來的專案資料夾
cd personaplex
# 執行子目錄安裝
pip install -e moshi/.
Bash# 進到你 clone 下來的專案資料夾 cd personaplex # 執行子目錄安裝 pip install -e moshi/.
3. 針對 RTX 5060 Ti (Blackwell/Ada 改進版) 的優化
根據 README 的建議,針對最新的 NVIDIA GPU(如你的 50 系列),請安裝特定的 PyTorch 版本以獲得最佳驅動支援:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130
4. 啟動測試伺服器
安裝完成後,你可以直接啟動它內建的 Web UI 來測試全雙工對話。針對 5060 Ti,如果顯存(VRAM)不足,建議加上 --cpu-offload:
set TORCH_COMPILE_DISABLE=1
set MOSHI_NO_GRAPH=1
# 設定你的 Hugging Face Token (記得替換成你自己的)
set HF_TOKEN=hf_xxxxxxxxxxxxxxxxx
# 移除 --cpu-offload 試試看(如果你顯存夠),或是保持但明確指定裝置
python -m moshi.server --cpu-offload --device cuda:0
啟動後,開啟瀏覽器輸入 http://localhost:8998 即可進入互動介面。
- 用麥克風和她/他 對話:















