Prompting 知識養成 Day14

更新於 發佈於 閱讀時間約 5 分鐘

今天是第14天,要進到一個在大型語言模型應用中越來越重要的主題:Evaluation (評估) 和 Metrics (指標)。

在開始前想先小小說一下整個概念掌握後的理解。

雖說是對prompt進行評估(按字面上),但其實,要進行這樣的評估,也只能透過對「執行prompt後所得的結果」進行評估。這就像是,要評估某種耕種稻米的方法是否優良,也只能看產出的稻米的品質與數量。

所以,所謂「評估prompt」,實則上是對「模型產出的結果」進行評估。

帶著這樣的前置概念,可能可以對評估有更好地理解。

(也再說明,我單純只想掌握概念,無意細究高技術含量、專業工程...之類的東西。是根據這樣的想法做的理解筆記。)

● 評估 (Evaluation) 是什麼?

評估是指在「給定特定 Prompt 策略」的情況下,針對「LLM 模型的輸出」與「預期的參考輸出」,兩者之間的匹配度、品質和行為模式,進行評估。


● 評估什麼?

評估的是「系統的整體 Prompting 策略」;也就是去評估,系統開發者或 Prompt 工程師為了引導 LLM 所設計出來的「系統 Prompt (System Prompt)」或「指令 Prompt (Instruction Prompt)」。

被評估的系統 Prompt(System Prompt)&指令 Prompt (Instruction Prompt),基本會有以下環節:

  1. 系統級 Prompt (System-level Prompt)
  2. Prompt Chaining 中的各階段 Prompt (for複雜系統)
  3. 用戶輸入的上下文和指令
  4. Few-shot 範例**

**註:3 & 4 會以兩種方式進行評估:「預先模擬」 (即在開發和測試階段進行)、「上線後,根據實際案例累積的數據」 (即在生產環境進行)


● 什麼時候評估?

說明:評估基本上是一個持續的過程,從LLM 應用的開發、部署、維護,整個生命週期都在進行,正如所有其他軟體系統一般,持續的更新與優化。

評估的的應用情境大致有以下:

一、開發階段
目的: 快速驗證想法,加速迭代速度。

二、新功能或新模型的引入
目的: 確保集成順利,性能提升符合預期。

三、生產環境的監控 
目的: 及早發現問題、確保服務穩定性、保持用戶滿意度。

四、「巨大執行錯誤」或「異常行為」
目的: 快速定位問題根源並修復。

五、針對特定用戶群體或邊緣案例的優化 
目的: 提升模型在特定場景下的表現。

● 如何評估?

評估的基本流程與步驟有以下:

  1. 定義明確的目標和標準、建立評估數據集 (Evaluation Dataset):
    包含設計的輸入 prompt 與預期產出的結果。在設計上須以現實使用情境為準。
  2. 選擇合適的評估方法和指標
  3. 結合定性(質化)與定量(量化)分析
  4. 定期執行評估,根據評估結果進行系統的迭代優化


● 三類型評估方法

如前所述,評估的對象基本上就是「LLM 的輸出」,方法有三類:

  1. 自動化評估 (Automated Evaluation)
    應用場景: 大規模回歸測試、快速迭代中的初步篩選、對特定格式或內容要求嚴格的任務。
  2. 人工評估 (Human Evaluation)
    應用場景: 最終品質驗證、關鍵任務的評估、需要主觀判斷的內容生成、新模型或新 Prompt 的初步探索。
  3. LLM-as-a-Judge
    說明:使用另一個(通常是更強的) LLM 來評估。
    應用場景: 自動化與人工評估以外的高效替代方案。


● 如何設定評估的「指標 (Metrics)」?

評估指標的設定要看是哪種類型的任務,所以,如何分類任務類型、有哪些任務,是優先需要知道的。**
**註:由於實際的指標涉入太多專業性概念、技術詞彙,這不是我想了解的。所以不會展開說明。

依照目前已大致普及的LLM來說,最主要的任務類型有以下:

  • 生成任務 (文本摘要、翻譯、內容創作)
  • 資訊提取任務 (Information Extraction - IE)
  • 序列標註任務 (Sequence Labeling)
  • 語法檢查與校對任務 (Grammar/Spelling Check & Proofreading)
  • 程式碼相關任務 (Code-related Tasks)
  • 對話系統/聊天機器人任務 (Dialogue Systems/Chatbots)
  • 多模態任務 (Multimodal Tasks)

(當然,在現今如此快速的發展下,一定很快會有越來越多元的任務類型出現的。)




留言
avatar-img
留言分享你的想法!
avatar-img
不是雞湯,但是又如何
3會員
271內容數
不是雞湯,但 是又如何 不是雞湯,但是 又如何
2025/07/16
第13天的,延續與 Prompt Chaining 密切相關,更複雜強大的概念:AI Agents (人工智慧代理)。 2 Parts:我的白話理解/練習題「模擬 AI Agent 工作流程」(+GPT評點) - Part. 1 我的白話理解 - ▪︎ AI Agents 定義: 包含了L
2025/07/16
第13天的,延續與 Prompt Chaining 密切相關,更複雜強大的概念:AI Agents (人工智慧代理)。 2 Parts:我的白話理解/練習題「模擬 AI Agent 工作流程」(+GPT評點) - Part. 1 我的白話理解 - ▪︎ AI Agents 定義: 包含了L
2025/07/15
第12天:Prompt Chaining (提示鏈) 與複雜工作流程 今天是另一個複雜的應用...:Prompt Chaining (提示鏈) 與複雜工作流程 -- 我的大白話理解 Prompt Chaining 一、定義: 幫助LLM完成高度複雜任務的系統設計,由工程師設計「工作流程編排系
2025/07/15
第12天:Prompt Chaining (提示鏈) 與複雜工作流程 今天是另一個複雜的應用...:Prompt Chaining (提示鏈) 與複雜工作流程 -- 我的大白話理解 Prompt Chaining 一、定義: 幫助LLM完成高度複雜任務的系統設計,由工程師設計「工作流程編排系
2025/07/14
第11天:多模態 Prompting (Multimodal Prompting) (據說2多模態 Prompting 的概念算是進入高級 Prompt 工程主題的範疇了。。。) 我覺得的要點有以下: ►多模態 Prompting 定義: 加入不同類型的數據模態** 作為prompt的元素之
2025/07/14
第11天:多模態 Prompting (Multimodal Prompting) (據說2多模態 Prompting 的概念算是進入高級 Prompt 工程主題的範疇了。。。) 我覺得的要點有以下: ►多模態 Prompting 定義: 加入不同類型的數據模態** 作為prompt的元素之
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - Prompt Engineering - 13中,提及Prompt Engine
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - Prompt Engineering - 13中,提及Prompt Engine
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
本文介紹了大型語言模型(LLM)中Prompt的原理及實踐,並提供了撰寫Prompt的基本框架邏輯PREP,以及加強Prompt撰寫的幾個方向:加強說明背景、角色描述和呈現風格,加強背景說明,角色描述,呈現風格以及目標受眾(TA)。同時推薦了幾個Prompt相關的參考網站。最後解答了一些快問快答。
Thumbnail
本文介紹了大型語言模型(LLM)中Prompt的原理及實踐,並提供了撰寫Prompt的基本框架邏輯PREP,以及加強Prompt撰寫的幾個方向:加強說明背景、角色描述和呈現風格,加強背景說明,角色描述,呈現風格以及目標受眾(TA)。同時推薦了幾個Prompt相關的參考網站。最後解答了一些快問快答。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News