Prompting 知識養成 Day27

2025/08/09 更新2025/08/09 發佈閱讀 6 分鐘

第27天：基準測試 (Benchmarking) 的概念與實踐

我們已經充分理解 Prompt 是一個奠基於語意的指令，所以要讓 LLM 能生成符於預期的結果是相對困難且複雜的。而 Prompt engineering 所做的諸多努力，正是在使「LLM 總是可以生成符於預期的結果」這件事可以發生。

那麼，對於「LLM 總是可以生成符於預期的結果」，我們就有必要進一步去釐清「生成符於預期的結果」的判斷標準是什麼？這也就是「基準測試 (Benchmarking)」之所以存在的目的。

▶︎ Why Benchmarking

基準測試在 Prompt engineering 中所扮演的角色，就是希望能預先為實際應用場景建立一個可以實現的「符於預期的結果」的「最低可接受標準」。簡言之，建立一套客觀數據來找出最合適的 Prompt模板，用以承接對應用戶輸入的 Prompt。

▶︎ How Benchmarking

透過模擬測試，包含設定不同的 Prompt模板、不同的用戶輸入 Prompt，模擬輸入 LLM後得到的生成內容，針對生成內容進行評分，基準測試提供了一套數據作為客觀標準，來衡量 Prompt 模板的品質，從而決定採用。

▶︎ Benefits of Benchmarking

1. 生成內容的品質一致性：
基準測試能協助確認，LLM 在接收各種不可預期的用戶輸入 Prompt 時，仍能得出相同一致且穩定的、高品質的生成內容。

2. 迭代優化可行性高：
透過定期的基準測試，可持續對 Prompt 模板進行迭代優化；尤其是就語詞使用變化快速的現實層面而言。

▶︎ Core Steps of Benchmarking
一個有效的基準測試流程至少包含以下 4個步驟：

Step 1：Define Metrics／定義評估指標
(a) 針對「什麼是好的生成內容」建立明確評估指標。
(b) 評估指標通常包含多個維度，基本必備的有：
▪︎ 準確性：是否包含所有必要資訊？
▪︎ 完整性：是否包含了所有用戶需求的點？
▪︎ 安全性：是否遵守了安全準則？
(c) 評分方式：
▪︎ 有正確標準答案的以「分數」：完全錯誤→完全正確
▪︎ 無正確標準答案的以「百分比」：ex用戶指定某種文章風格，相似度適用
(d) 考慮實際應用場景的其他評估指標：
主要取決於用戶輸入的任務內容，ex客服、資料分析、寫作**...etc.。
_{(**註：以寫作為例，評估指標可添加：「風格一致性：是否符合用戶指定文筆風格」。)}

Step 2：Create a Test Dataset／建立測試集
(a) 在開始測試前，建立一組包含多種情境和邊緣案例的「用戶輸入 Prompt 測試集」，以確保測試盡可能地包含了用戶輸入的各種可能性。
(b) 測試集必備的輸入 Prompt 類型：
▪︎ 正常輸入：典型的、清晰的用戶問題。
▪︎ 模糊輸入：帶有歧義或不完整的用戶問題。
▪︎ 惡意輸入：試圖進行提示詞攻擊的輸入。
▪︎ 邊緣案例：很少見或極端的情境。

Step 3：Execute the Test／測試執行
(a) 將測試集中的每一個輸入 Prompt，應用至已預先設計好的不同 Prompt 模板，記錄各個模板的輸出結果。
(b) 預先設計好的 Prompt 模板，是基準測試的前置作業：在 Prompt engineering 中，完整的基準測試會包含三個階段：
▪︎ 第一階段「設計與開發 (Design & Development)」：規劃設計不同 Prompt 模板(←i.e.基準測試的前置作業)
▪︎ 第二階段「基準測試 (Benchmarking)」：今天的主要知識內容(4 steps)**
▪︎ 第三階段「部署與迭代 (Deployment & Iteration)」：實際場景落地應用
_{(**註：透過這個三階段歷程亦可知，Benchmarking 是連續迭代的「中間環節」，不是可以單獨成立的。)}

Step 4：Evaluate & Analyze／評估與分析
(a) 根據Step 1所定義的評估指標，對所有輸出結果進行評分並分析數據。
(b) 評分可透過人工進行，或使用另一個 LLM 進行自動化評分；抑或兩者並行。
(c) 透過分析得出「哪個 Prompt 模板綜合表現最佳」，將於實際場景落地應用(i.e.第三階段的「部署與迭代(Deployment & Iteration)**」)。
_{(**註：記錄最佳模板在測試集中的哪些輸入類型失敗最多，可針對弱項改進，同樣有助於迭代。)}

❖ 小結：
透過基準測試，在「以自然語言語意為基礎」的困難前提下，仍能為 LLM 的應用提供一個相對客觀的 Prompt 判准，保障 LLM生成內容在一定程度上的一致與穩定性。
而且，基準測試也再一次例證了，Prompt engineering (在應用程式端的各種規劃與構作) 對於 LLM 得以良好執行應用所起到的效用。

含 AI 應用內容

不是雞湯，但是又如何Gen AI prompt practice

留言

留言分享你的想法！

不是雞湯，但是又如何

3會員

324內容數

不是雞湯，但是又如何不是雞湯，但是又如何

不是雞湯，但是又如何的其他內容

2025/08/08

Prompting 知識養成 Day26

第26天：防禦性提示工程 (Defensive Prompt Engineering) 正如水能載舟亦能覆舟，LLM 作為一個功能強大的工具，雖可協助用戶準確執行任務，但也可能被不當惡意利用。那麼，要如何防止 LLM 被惡意利用或產生不安全的行為？我們已經知道，Prompt Engineeri

2025/08/08

Prompting 知識養成 Day26

2025/08/07

Prompting Q & A _08.07

我對 ChatGPT 發問： Prompt 應該「條列式／結構化)」還是「自然語言語句」？－我：我一直以為Prompt 應該「條列式／結構化)」與「自然語言語句」交替轉換著使用。但，我確實無法掌握，何時該條列式、何時該使用自然語言語句。可否給我一些建議，關於如何判斷什麼時候哪種

2025/08/07

Prompting Q & A _08.07

2025/08/06

Prompting 知識養成 Day25

第25天：基於代理人的提示工程 (Agent-based Prompt Engineering) 用我的理解來表述的話，我會說Agent-based Prompt Engineering 是「代理人基礎的提示工程」。「代理人基礎的提示工程」表達了： ▷是「提示工程」在單一 LLM 中實現，不是

2025/08/06

#AI 的其他內容

從《鬼滅之刃》看「變強」的代價：當成長變成權力與執念，我們都可能變成鬼｜怪獸科技公司

Anthropic 團隊現身說法：如何設計一個高效率的 AI Agent【全文摘要翻譯】

學習玩家｜啟動玩心學習

打造專屬你的 AI 助理：從 Gemini 的 Gem 功能開始｜附贈 PARTS 設計小指南

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15