Prompting 知識養成 Day27

更新 發佈閱讀 6 分鐘

第27天:基準測試 (Benchmarking) 的概念與實踐

我們已經充分理解 Prompt 是一個奠基於語意的指令,所以要讓 LLM 能生成符於預期的結果是相對困難且複雜的。而 Prompt engineering 所做的諸多努力,正是在使「LLM 總是可以生成符於預期的結果」這件事可以發生。

那麼,對於「LLM 總是可以生成符於預期的結果」,我們就有必要進一步去釐清「生成符於預期的結果」的判斷標準是什麼?這也就是「基準測試 (Benchmarking)」之所以存在的目的。


▶︎ Why Benchmarking

基準測試在 Prompt engineering 中所扮演的角色,就是希望能預先為實際應用場景建立一個可以實現的「符於預期的結果」的「最低可接受標準」。簡言之,建立一套客觀數據來找出最合適的 Prompt模板,用以承接對應用戶輸入的 Prompt。


▶︎ How Benchmarking

透過模擬測試,包含設定不同的 Prompt模板、不同的用戶輸入 Prompt,模擬輸入 LLM後得到的生成內容,針對生成內容進行評分,基準測試提供了一套數據作為客觀標準,來衡量 Prompt 模板的品質,從而決定採用。


▶︎ Benefits of Benchmarking

1. 生成內容的品質一致性:
基準測試能協助確認,LLM 在接收各種不可預期的用戶輸入 Prompt 時,仍能得出相同一致且穩定的、高品質的生成內容。

2. 迭代優化可行性高:
透過定期的基準測試,可持續對 Prompt 模板進行迭代優化;尤其是就語詞使用變化快速的現實層面而言。


▶︎ Core Steps of Benchmarking
一個有效的基準測試流程至少包含以下 4個步驟:

Step 1:Define Metrics/定義評估指標
(a) 針對「什麼是好的生成內容」建立明確評估指標。
(b) 評估指標通常包含多個維度,基本必備的有:
▪︎ 準確性:是否包含所有必要資訊?
▪︎ 完整性:是否包含了所有用戶需求的點?
▪︎ 安全性:是否遵守了安全準則?
(c) 評分方式:
▪︎ 有正確標準答案的以「分數」:完全錯誤→完全正確
▪︎ 無正確標準答案的以「百分比」:ex用戶指定某種文章風格,相似度適用
(d) 考慮實際應用場景的其他評估指標:
主要取決於用戶輸入的任務內容,ex客服、資料分析、寫作**...etc.。
(**註:以寫作為例,評估指標可添加:「風格一致性:是否符合用戶指定文筆風格」。)

Step 2:Create a Test Dataset/建立測試集
(a) 在開始測試前,建立一組包含多種情境和邊緣案例的「用戶輸入 Prompt 測試集」,以確保測試盡可能地包含了用戶輸入的各種可能性。
(b) 測試集必備的輸入 Prompt 類型:
▪︎ 正常輸入:典型的、清晰的用戶問題。
▪︎ 模糊輸入:帶有歧義或不完整的用戶問題。
▪︎ 惡意輸入:試圖進行提示詞攻擊的輸入。
▪︎ 邊緣案例:很少見或極端的情境。

Step 3:Execute the Test/測試執行
(a) 將測試集中的每一個輸入 Prompt,應用至已預先設計好的不同 Prompt 模板,記錄各個模板的輸出結果。
(b) 預先設計好的 Prompt 模板,是基準測試的前置作業:在 Prompt engineering 中,完整的基準測試會包含三個階段:
▪︎ 第一階段「設計與開發 (Design & Development)」:規劃設計不同 Prompt 模板(←i.e.基準測試的前置作業)
▪︎ 第二階段「基準測試 (Benchmarking)」:今天的主要知識內容(4 steps)**
▪︎ 第三階段「部署與迭代 (Deployment & Iteration)」:實際場景落地應用
(**註:透過這個三階段歷程亦可知,Benchmarking 是連續迭代的「中間環節」,不是可以單獨成立的。)

Step 4:Evaluate & Analyze/評估與分析
(a) 根據Step 1所定義的評估指標,對所有輸出結果進行評分並分析數據。
(b) 評分可透過人工進行,或使用另一個 LLM 進行自動化評分;抑或兩者並行。
(c) 透過分析得出「哪個 Prompt 模板綜合表現最佳」,將於實際場景落地應用(i.e.第三階段的「部署與迭代(Deployment & Iteration)**」)。
(**註:記錄最佳模板在測試集中的哪些輸入類型失敗最多,可針對弱項改進,同樣有助於迭代。)


❖ 小結:
透過基準測試,在「以自然語言語意為基礎」的困難前提下,仍能為 LLM 的應用提供一個相對客觀的 Prompt 判准,保障 LLM生成內容在一定程度上的一致與穩定性。
而且,基準測試也再一次例證了,Prompt engineering (在應用程式端的各種規劃與構作) 對於 LLM 得以良好執行應用所起到的效用。

留言
avatar-img
留言分享你的想法!
avatar-img
不是雞湯,但是又如何
3會員
324內容數
不是雞湯,但 是又如何 不是雞湯,但是 又如何
2025/08/08
第26天:防禦性提示工程 (Defensive Prompt Engineering) 正如水能載舟亦能覆舟,LLM 作為一個功能強大的工具,雖可協助用戶準確執行任務,但也可能被不當惡意利用。那麼,要如何防止 LLM 被惡意利用或產生不安全的行為? 我們已經知道,Prompt Engineeri
2025/08/08
第26天:防禦性提示工程 (Defensive Prompt Engineering) 正如水能載舟亦能覆舟,LLM 作為一個功能強大的工具,雖可協助用戶準確執行任務,但也可能被不當惡意利用。那麼,要如何防止 LLM 被惡意利用或產生不安全的行為? 我們已經知道,Prompt Engineeri
2025/08/07
我對 ChatGPT 發問: Prompt 應該「條列式 /結構化)」還是「自然語言語句」? - 我: 我一直以為Prompt 應該「條列式 /結構化)」與「自然語言語句」交替轉換著使用。 但,我確實無法掌握,何時該條列式、何時該使用自然語言語句。 可否給我一些建議,關於如何判斷什麼時候哪種
Thumbnail
2025/08/07
我對 ChatGPT 發問: Prompt 應該「條列式 /結構化)」還是「自然語言語句」? - 我: 我一直以為Prompt 應該「條列式 /結構化)」與「自然語言語句」交替轉換著使用。 但,我確實無法掌握,何時該條列式、何時該使用自然語言語句。 可否給我一些建議,關於如何判斷什麼時候哪種
Thumbnail
2025/08/06
第25天:基於代理人的提示工程 (Agent-based Prompt Engineering) 用我的理解來表述的話,我會說Agent-based Prompt Engineering 是「代理人基礎的提示工程」。 「代理人基礎的提示工程」表達了: ▷是「提示工程」在單一 LLM 中實現,不是
2025/08/06
第25天:基於代理人的提示工程 (Agent-based Prompt Engineering) 用我的理解來表述的話,我會說Agent-based Prompt Engineering 是「代理人基礎的提示工程」。 「代理人基礎的提示工程」表達了: ▷是「提示工程」在單一 LLM 中實現,不是
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在 AI說書 - Prompt Engineering - 67 | 多角色 Prompt 中闡述了
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在 AI說書 - Prompt Engineering - 67 | 多角色 Prompt 中闡述了
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們把 AI說書 - Prompt Engineering - 55 和 AI說書 - Prompt E
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們把 AI說書 - Prompt Engineering - 55 和 AI說書 - Prompt E
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Prompt Engineering 作為一門新興學科,與已建立的軟體工程領域有著驚人的相似之處,這種並
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Prompt Engineering 作為一門新興學科,與已建立的軟體工程領域有著驚人的相似之處,這種並
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - Prompt Engineering - 13中,提及Prompt Engine
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - Prompt Engineering - 13中,提及Prompt Engine
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Prompt Engineering 跨越了一個範圍:它涉及人工智慧科學家和工程師掌握的複雜技術;另一方
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Prompt Engineering 跨越了一個範圍:它涉及人工智慧科學家和工程師掌握的複雜技術;另一方
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News