在 Win環境用 LM Studio 做自動化 Benchmark：多模型批次評測、TTFT/TPS 指標與除錯全紀錄

Josh

發佈於AI

2026/04/15 更新2026/04/15 發佈閱讀 7 分鐘

最近我在 Windows 上用 LM Studio 跑本地模型，想把評測做成可重複、可比較、可自動化。這篇把完整流程整理成一份可直接上手的實戰筆記，包含：

如何同時做「能力評測」與「效能評測」
怎麼用 PowerShell 批次跑多模型
常見錯誤（apply_chat_template、全零分數、中文 prompt 亂碼、PowerShell 版本相容）怎麼排
TTFT、P95、warmup 等指標要怎麼讀

為什麼要分成兩種 benchmark

只看單一分數很容易誤判模型體驗。實務上我建議分兩條線：

能力評測：lm-eval 跑任務分數（例如 truthfulqa_gen、gsm8k）
效能評測：直接打 LM Studio /api/v1/chat，抓 TTFT、tokens_per_second

這樣你可以同時回答兩個問題：

答得準不準？
回得快不快？

環境與專案初始化（Windows）

先在專案目錄建立虛擬環境：

python -m venv .venv
.\.venv\Scripts\Activate.ps1
pip install -U "lm-eval[api]"

如果專案還沒版控，先初始化：

git init

自動化腳本設計（可批次多模型）

我最後整理成一支 run-lmstudio-benchmark.ps1，搭配 benchmark-config.json 使用。核心能力如下：

一次跑多個模型
能力與效能可分開執行（-SkipQuality / -SkipPerformance）
輸出統一落在 results\yyyyMMdd-HHmmss\
自動匯出：
- quality_metrics.csv
- perf_raw.csv
- perf_summary.csv
- run_manifest.json

最關鍵的幾個坑與修法

1) `local-chat-completions` 報錯：expects messages as list[dict]

這是因為沒套聊天模板，輸入格式不符。要加上：

--apply_chat_template

2) `truthfulqa_gen` 分數全是 0

不是模型一定很爛，而是輸出可能是空字串。我實際檢查 samples_*.jsonl 發現 filtered_resps 全空，導致 BLEU/ROUGE 全歸零。

常見原因是生成停止條件太早截斷。可先小樣本驗證：

lm-eval run --model local-chat-completions --apply_chat_template `
  --model_args "model=google/gemma-4-26b-a4b,base_url=http://localhost:1234/v1/chat/completions,num_concurrent=1,max_retries=3,tokenized_requests=False" `
  --tasks truthfulqa_gen --limit 5 `
  --gen_kwargs "max_gen_toks=1024,until=[]" `
  --output_path .\results\debug_truthfulqa --log_samples

先確認 samples 裡不是空輸出，再跑正式量測。

3) PowerShell 5.1 相容問題：`ConvertFrom-Json` 沒有 `-Depth`

如果看到「找不到符合參數名稱 ‘Depth’」，代表你在 PowerShell 5.1。修法是把：

ConvertFrom-Json -Depth 100

改成：

ConvertFrom-Json

4) 中文 prompt 變問號或亂碼

這是 Windows 下最常見的編碼坑。修兩件事：

讀設定檔時明確指定 UTF-8
送 API 時用 UTF-8 bytes + charset=utf-8

我在腳本裡實作後，中文已可正常送出。另外終端顯示若還是亂碼，通常是顯示層問題，可先：

chcp 65001

我加的 `-DebugEncoding` 模式（很實用）

為了快速確認中文是否真的正確傳輸，我加了 -DebugEncoding。它會印出：

Prompt 長度與 code points
Request body 前幾個 bytes
第一筆回應型別與內容 code points

使用方式：

.\run-lmstudio-benchmark.ps1 -SkipQuality -DebugEncoding

看到中文 code points 不是 63,63,63...（問號）就代表傳輸沒壞。

指標名詞白話版

warmup：暖機回合，不納入正式統計，用來排除冷啟動噪音
ttft：首 token 延遲，從發請求到吐第一個字的時間，越低越好
p95：95 百分位，觀察尾端慢請求的重要指標
sample_count：統計用了幾筆樣本（通常不含 warmup）
model_load_time_seconds：模型載入到記憶體的時間，常出現在冷啟動

建議的實務流程

先用 --limit 跑小量驗證流程是否正確。
檢查 samples_*.jsonl 是否有非空輸出。
再移除 limit 跑正式 benchmark。
用 perf_summary.csv 比較模型穩態體驗（看 ttft_p95 與 tps_avg）。
保留 run_manifest.json 方便追溯每次設定差異。

結語

在本地模型場景，真正可用的 benchmark 不只是跑出一個分數，而是要能持續重跑、可追溯、可比較。把能力分數與效能指標分開，搭配穩定的 Windows 編碼處理與腳本化流程，才是長期可維護的評測基礎。

如果你也在用 LM Studio，我很推薦先把這套流程搭起來，再談模型選型，決策會快非常多。

參考資料

LM-benchmark github repo

留言

Josh的沙龍

15會員

119內容數

分享知識

Josh的沙龍的其他內容

2026/04/15

Windows 實戰：用 LM Studio API 在 lm-eval-harness 評測 Gemma 4 26B

本文以視窗系統實作語言模型評測流程，從建立虛擬環境、安裝套件、驗證任務，到串接本機推論服務與檢查機率輸出，最後提供直接貼上的完整指令腳本，協助快速完成基準測試與結果保存並降低踩雷率。

2026/04/15

Windows 實戰：用 LM Studio API 在 lm-eval-harness 評測 Gemma 4 26B

2026/04/08

【開發祕笈】掌握 OpenCode 斜線指令：讓終端機 AI 成為你的最強編碼助手

本文詳解 OpenCode 終端機 AI 工具的斜線指令，涵蓋模型管理、會話控制及代碼審查等核心功能。透過簡單指令即可快速切換 Agent、進行代碼 Review 並優化上下文空間，是開發者提升 AI 輔助開發效率的必備指南。

2026/04/08

【開發祕笈】掌握 OpenCode 斜線指令：讓終端機 AI 成為你的最強編碼助手

2026/03/31

gstack：全流程 AI 代理團隊的自動化實踐 (完整技能解析)

YC 執行長 Garry Tan 開源的 gstack 框架，將 AI 代理轉化為高效開發團隊。本文深度解析其內建的 31 項核心技能，助你構建能獨立處理從戰略規劃、設計、品質審查到最終部署與文檔交付的完整 AI 工作流。

2026/03/31

gstack：全流程 AI 代理團隊的自動化實踐 (完整技能解析)

看更多

你可能也想看

葉郎的沙龍

18年前的今天，被拒發簽證的歌手艾美懷絲透過衛星在葛萊美獎頒獎典禮上連線演出

【18年前的今天，被拒發簽證的歌手艾美懷絲透過衛星在葛萊美獎頒獎典禮上連線演出】葉郎 ◤電視史上的今天：2008年2月10日，第50屆葛萊美獎頒獎典禮在洛杉磯的史坦波中心 (Staples Center) 舉行。靈魂樂歌后艾美懷絲 (Amy Winehouse) 因毒品問題被美國拒發簽證，無法親臨

#頒獎典禮#葛萊美獎#演出

2026/02/10

葉郎的沙龍

18年前的今天，被拒發簽證的歌手艾美懷絲透過衛星在葛萊美獎頒獎典禮上連線演出

#頒獎典禮#葛萊美獎#演出

2026/02/10

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

史塔克實驗室的沙龍

輝瑞和莫德納在疫情期間大豐收 The Covid Vaccine Windfall Turns for Pfizer

這一篇想寫很久了ＸＤＤＤ主要是指桑罵槐，講高端，可是我越研究越覺得，靠杯，原來全世界好像都這樣搞，只是我們離高端比較近，而且是政府在做的，所以我們比較在意，不過老實說，的確要多在意一點才對，我們來看看華爾街日報這篇說什麼。https://bit.ly/41naNIS 這篇文章出現在感恩

#Pfizer#輝瑞#華爾街日報

2023/12/15

史塔克實驗室的沙龍

輝瑞和莫德納在疫情期間大豐收 The Covid Vaccine Windfall Turns for Pfizer

#Pfizer#輝瑞#華爾街日報

2023/12/15

家裡胡說 (Gary Hu said)

小白也想趕上AI潮流 - 本地端生成式AI工具LM Studio安裝介紹

本地端生成式AI工具LM Studio安裝介紹，包含如何手動載入AI模型的技巧。

#lmstudio#huggingface#生成式AI工具

2024/10/13

家裡胡說 (Gary Hu said)

小白也想趕上AI潮流 - 本地端生成式AI工具LM Studio安裝介紹

本地端生成式AI工具LM Studio安裝介紹，包含如何手動載入AI模型的技巧。

#lmstudio#huggingface#生成式AI工具

2024/10/13

會計自動化研究社

《⚔️ 新手村補給站⚔️ 》如何安裝本地n8n?

安裝Docker 安裝Docker Desktop(Docker 免費介面版，好看又方便操作) Mac | Window 如果是Window系統在安裝Docker Desktop時也需要另外安裝WSL(這是window模擬Linux環境的一個虛擬環境，他們之間會有一個路徑連接彼此讓兩個

#安裝#Win#Mac

2025/07/29

會計自動化研究社

《⚔️ 新手村補給站⚔️ 》如何安裝本地n8n?

#安裝#Win#Mac

2025/07/29

數位建築師專欄｜Notion 深度系統與 AI 自動化

2026/03 AI 趨勢快報

整理截至 2026 年 3 月，對個人創作者、一人公司、自由工作者最具影響力的 AI 結構性趨勢。 2026/03 的主線不是「哪個模型最強」，而是「開源＋小模型＋工作流 Agent」讓個人/小團隊用更低成本做出接近大團隊的產能。

#AI趨勢#2026趨勢#創作者工具

2026/03/31

數位建築師專欄｜Notion 深度系統與 AI 自動化

2026/03 AI 趨勢快報

#AI趨勢#2026趨勢#創作者工具

2026/03/31

小礦工挖挖礦的沙龍

熊市避風港『PetaRush 』免費送出NFT 搶先在 CB2 搶先賺錢 Win To Earn

1.項目介紹 PetaRush 是一款動物賽跑遊戲，玩法類似經典遊戲《瑪利歐賽車》，但玩家不必操控跑者方向，只需要根據賽道的地形與氣候施放適當技能、或是陷害對手以取得勝利。玩家可以透過角色養成、技能養成的方式來增強跑者的數值，以獲得更高的勝率。繼今年五月首次遊戲封測結束後，研發團隊推出全新封測版本

#PetaRush#NFT#Phantabear

2023/02/20

小礦工挖挖礦的沙龍

熊市避風港『PetaRush 』免費送出NFT 搶先在 CB2 搶先賺錢 Win To Earn

#PetaRush#NFT#Phantabear

2023/02/20

Chris Fung 的沙龍

讓您在 Windows 語音輸入更輕鬆！Win Hotkey for iFlyVoice v4.0 登場

Windows版「訊飛語音輸入法」快捷鍵擴充工具新版本 v4.0.1 🔼 新增 iFlyIME_Path 偏好設定，支援自訂 iFlyVoice.exe 路徑，自由切換訊飛版本與安裝位置。

#生產力工具#Windows#語音輸入

2025/09/26

Chris Fung 的沙龍

讓您在 Windows 語音輸入更輕鬆！Win Hotkey for iFlyVoice v4.0 登場

Windows版「訊飛語音輸入法」快捷鍵擴充工具新版本 v4.0.1 🔼 新增 iFlyIME_Path 偏好設定，支援自訂 iFlyVoice.exe 路徑，自由切換訊飛版本與安裝位置。

#生產力工具#Windows#語音輸入

2025/09/26

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11