在 Win環境用 LM Studio 做自動化 Benchmark:多模型批次評測、TTFT/TPS 指標與除錯全紀錄

Josh-avatar-img
發佈於AI
更新 發佈閱讀 7 分鐘

最近我在 Windows 上用 LM Studio 跑本地模型,想把評測做成可重複、可比較、可自動化。這篇把完整流程整理成一份可直接上手的實戰筆記,包含:

  • 如何同時做「能力評測」與「效能評測」
  • 怎麼用 PowerShell 批次跑多模型
  • 常見錯誤(apply_chat_template、全零分數、中文 prompt 亂碼、PowerShell 版本相容)怎麼排
  • TTFT、P95、warmup 等指標要怎麼讀

為什麼要分成兩種 benchmark

只看單一分數很容易誤判模型體驗。實務上我建議分兩條線:

  • 能力評測:lm-eval 跑任務分數(例如 truthfulqa_gengsm8k
  • 效能評測:直接打 LM Studio /api/v1/chat,抓 TTFTtokens_per_second

這樣你可以同時回答兩個問題:

  • 答得準不準?
  • 回得快不快?

環境與專案初始化(Windows)

先在專案目錄建立虛擬環境:

python -m venv .venv
.\.venv\Scripts\Activate.ps1
pip install -U "lm-eval[api]"

如果專案還沒版控,先初始化:

git init

自動化腳本設計(可批次多模型)

我最後整理成一支 run-lmstudio-benchmark.ps1,搭配 benchmark-config.json 使用。核心能力如下:

  • 一次跑多個模型
  • 能力與效能可分開執行(-SkipQuality / -SkipPerformance
  • 輸出統一落在 results\yyyyMMdd-HHmmss\
  • 自動匯出:
    • quality_metrics.csv
    • perf_raw.csv
    • perf_summary.csv
    • run_manifest.json

最關鍵的幾個坑與修法

1) local-chat-completions 報錯:expects messages as list[dict]

這是因為沒套聊天模板,輸入格式不符。要加上:

--apply_chat_template

2) truthfulqa_gen 分數全是 0

不是模型一定很爛,而是輸出可能是空字串。我實際檢查 samples_*.jsonl 發現 filtered_resps 全空,導致 BLEU/ROUGE 全歸零。

常見原因是生成停止條件太早截斷。可先小樣本驗證:

lm-eval run --model local-chat-completions --apply_chat_template `
--model_args "model=google/gemma-4-26b-a4b,base_url=http://localhost:1234/v1/chat/completions,num_concurrent=1,max_retries=3,tokenized_requests=False" `
--tasks truthfulqa_gen --limit 5 `
--gen_kwargs "max_gen_toks=1024,until=[]" `
--output_path .\results\debug_truthfulqa --log_samples

先確認 samples 裡不是空輸出,再跑正式量測。

3) PowerShell 5.1 相容問題:ConvertFrom-Json 沒有 -Depth

如果看到「找不到符合參數名稱 ‘Depth’」,代表你在 PowerShell 5.1。修法是把:

ConvertFrom-Json -Depth 100

改成:

ConvertFrom-Json

4) 中文 prompt 變問號或亂碼

這是 Windows 下最常見的編碼坑。修兩件事:

  • 讀設定檔時明確指定 UTF-8
  • 送 API 時用 UTF-8 bytes + charset=utf-8

我在腳本裡實作後,中文已可正常送出。另外終端顯示若還是亂碼,通常是顯示層問題,可先:

chcp 65001

我加的 -DebugEncoding 模式(很實用)

為了快速確認中文是否真的正確傳輸,我加了 -DebugEncoding。它會印出:

  • Prompt 長度與 code points
  • Request body 前幾個 bytes
  • 第一筆回應型別與內容 code points

使用方式:

.\run-lmstudio-benchmark.ps1 -SkipQuality -DebugEncoding

看到中文 code points 不是 63,63,63...(問號)就代表傳輸沒壞。

指標名詞白話版

  • warmup:暖機回合,不納入正式統計,用來排除冷啟動噪音
  • ttft:首 token 延遲,從發請求到吐第一個字的時間,越低越好
  • p95:95 百分位,觀察尾端慢請求的重要指標
  • sample_count:統計用了幾筆樣本(通常不含 warmup)
  • model_load_time_seconds:模型載入到記憶體的時間,常出現在冷啟動

建議的實務流程

  1. 先用 --limit 跑小量驗證流程是否正確。
  2. 檢查 samples_*.jsonl 是否有非空輸出。
  3. 再移除 limit 跑正式 benchmark。
  4. 用 perf_summary.csv 比較模型穩態體驗(看 ttft_p95 與 tps_avg)。
  5. 保留 run_manifest.json 方便追溯每次設定差異。

結語

在本地模型場景,真正可用的 benchmark 不只是跑出一個分數,而是要能持續重跑、可追溯、可比較。把能力分數與效能指標分開,搭配穩定的 Windows 編碼處理與腳本化流程,才是長期可維護的評測基礎。

如果你也在用 LM Studio,我很推薦先把這套流程搭起來,再談模型選型,決策會快非常多。

參考資料

LM-benchmark github repo

留言
avatar-img
Josh的沙龍
15會員
119內容數
分享知識
Josh的沙龍的其他內容
2026/04/15
本文以視窗系統實作語言模型評測流程,從建立虛擬環境、安裝套件、驗證任務,到串接本機推論服務與檢查機率輸出,最後提供直接貼上的完整指令腳本,協助快速完成基準測試與結果保存並降低踩雷率。
2026/04/15
本文以視窗系統實作語言模型評測流程,從建立虛擬環境、安裝套件、驗證任務,到串接本機推論服務與檢查機率輸出,最後提供直接貼上的完整指令腳本,協助快速完成基準測試與結果保存並降低踩雷率。
2026/04/08
本文詳解 OpenCode 終端機 AI 工具的斜線指令,涵蓋模型管理、會話控制及代碼審查等核心功能。透過簡單指令即可快速切換 Agent、進行代碼 Review 並優化上下文空間,是開發者提升 AI 輔助開發效率的必備指南。
Thumbnail
2026/04/08
本文詳解 OpenCode 終端機 AI 工具的斜線指令,涵蓋模型管理、會話控制及代碼審查等核心功能。透過簡單指令即可快速切換 Agent、進行代碼 Review 並優化上下文空間,是開發者提升 AI 輔助開發效率的必備指南。
Thumbnail
2026/03/31
YC 執行長 Garry Tan 開源的 gstack 框架,將 AI 代理轉化為高效開發團隊。本文深度解析其內建的 31 項核心技能,助你構建能獨立處理從戰略規劃、設計、品質審查到最終部署與文檔交付的完整 AI 工作流。
Thumbnail
2026/03/31
YC 執行長 Garry Tan 開源的 gstack 框架,將 AI 代理轉化為高效開發團隊。本文深度解析其內建的 31 項核心技能,助你構建能獨立處理從戰略規劃、設計、品質審查到最終部署與文檔交付的完整 AI 工作流。
Thumbnail
看更多
你可能也想看
Thumbnail
【18年前的今天,被拒發簽證的歌手艾美懷絲透過衛星在葛萊美獎頒獎典禮上連線演出】葉郎 ◤電視史上的今天:2008年2月10日,第50屆葛萊美獎頒獎典禮在洛杉磯的史坦波中心 (Staples Center) 舉行。靈魂樂歌后艾美懷絲 (Amy Winehouse) 因毒品問題被美國拒發簽證,無法親臨
Thumbnail
【18年前的今天,被拒發簽證的歌手艾美懷絲透過衛星在葛萊美獎頒獎典禮上連線演出】葉郎 ◤電視史上的今天:2008年2月10日,第50屆葛萊美獎頒獎典禮在洛杉磯的史坦波中心 (Staples Center) 舉行。靈魂樂歌后艾美懷絲 (Amy Winehouse) 因毒品問題被美國拒發簽證,無法親臨
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
這一篇想寫很久了XDDD 主要是指桑罵槐,講高端,可是我越研究越覺得,靠杯,原來全世界好像都這樣搞,只是我們離高端比較近,而且是政府在做的,所以我們比較在意,不過老實說,的確要多在意一點才對,我們來看看華爾街日報這篇說什麼。https://bit.ly/41naNIS 這篇文章出現在感恩
Thumbnail
這一篇想寫很久了XDDD 主要是指桑罵槐,講高端,可是我越研究越覺得,靠杯,原來全世界好像都這樣搞,只是我們離高端比較近,而且是政府在做的,所以我們比較在意,不過老實說,的確要多在意一點才對,我們來看看華爾街日報這篇說什麼。https://bit.ly/41naNIS 這篇文章出現在感恩
Thumbnail
本地端生成式AI工具LM Studio安裝介紹,包含如何手動載入AI模型的技巧。
Thumbnail
本地端生成式AI工具LM Studio安裝介紹,包含如何手動載入AI模型的技巧。
Thumbnail
安裝Docker 安裝Docker Desktop(Docker 免費介面版,好看又方便操作) Mac | Window 如果是Window系統在安裝Docker Desktop時也需要另外安裝WSL(這是window模擬Linux環境的一個虛擬環境,他們之間會有一個路徑連接彼此讓兩個
Thumbnail
安裝Docker 安裝Docker Desktop(Docker 免費介面版,好看又方便操作) Mac | Window 如果是Window系統在安裝Docker Desktop時也需要另外安裝WSL(這是window模擬Linux環境的一個虛擬環境,他們之間會有一個路徑連接彼此讓兩個
Thumbnail
整理截至 2026 年 3 月,對個人創作者、一人公司、自由工作者最具影響力的 AI 結構性趨勢。 2026/03 的主線不是「哪個模型最強」,而是「開源+小模型+工作流 Agent」讓個人/小團隊用更低成本做出接近大團隊的產能。
Thumbnail
整理截至 2026 年 3 月,對個人創作者、一人公司、自由工作者最具影響力的 AI 結構性趨勢。 2026/03 的主線不是「哪個模型最強」,而是「開源+小模型+工作流 Agent」讓個人/小團隊用更低成本做出接近大團隊的產能。
Thumbnail
1.項目介紹 PetaRush 是一款動物賽跑遊戲,玩法類似經典遊戲《瑪利歐賽車》,但玩家不必操控跑者方向,只需要根據賽道的地形與氣候施放適當技能、或是陷害對手以取得勝利。玩家可以透過角色養成、技能養成的方式來增強跑者的數值,以獲得更高的勝率。 繼今年五月首次遊戲封測結束後,研發團隊推出全新封測版本
Thumbnail
1.項目介紹 PetaRush 是一款動物賽跑遊戲,玩法類似經典遊戲《瑪利歐賽車》,但玩家不必操控跑者方向,只需要根據賽道的地形與氣候施放適當技能、或是陷害對手以取得勝利。玩家可以透過角色養成、技能養成的方式來增強跑者的數值,以獲得更高的勝率。 繼今年五月首次遊戲封測結束後,研發團隊推出全新封測版本
Thumbnail
Windows版「訊飛語音輸入法」快捷鍵擴充工具 新版本 v4.0.1 🔼 新增 iFlyIME_Path 偏好設定,支援自訂 iFlyVoice.exe 路徑,自由切換訊飛版本與安裝位置。
Thumbnail
Windows版「訊飛語音輸入法」快捷鍵擴充工具 新版本 v4.0.1 🔼 新增 iFlyIME_Path 偏好設定,支援自訂 iFlyVoice.exe 路徑,自由切換訊飛版本與安裝位置。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
以娛樂城優惠所著名的88win在網路上的真實評價究竟是怎樣的呢?有傳聞問題是出在88win代理身上,也有人說是拿不到優惠的玩家在黑88win娛樂城,所以具體到底是甚麼原因大家也都不知道,就要繼續觀察後續的發展!
Thumbnail
以娛樂城優惠所著名的88win在網路上的真實評價究竟是怎樣的呢?有傳聞問題是出在88win代理身上,也有人說是拿不到優惠的玩家在黑88win娛樂城,所以具體到底是甚麼原因大家也都不知道,就要繼續觀察後續的發展!
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News