不知道怎麼跟 AI 對話？來做個基準測試吧！

Joker

發佈於職場

2025/11/20 更新2025/10/15 發佈閱讀 10 分鐘

沒有基準的改善就像沒有地圖的旅行

大家最常拿 LLM 或聊天機器人做什麼用？

寫 Email？整理資料？翻譯？還是直接把工作丟給它？

這邊我想要分享如何下好 Prompt 的第一章 - Orientation & Baseline。

步驟一：認識 Prompt 各種概念

先來看看幾個經典案例，這些都是我比較不推薦的用法：

案例一：「幫我寫個提案」 結果：AI 給了 10 頁充滿廢話的通用模板，完全不知道要提什麼案、給誰看、想達成什麼目標。

案例二：「整理這些資料」 結果：每次整理的格式都不一樣，有時候是表格，有時候是條列，有時候是段落，完全沒有一致性。

有沒有覺得問題出在哪裡 ?

重要觀念：Prompt 的本質是什麼？

在開始測試之前，還是想先釐清一個重要觀念：Prompt 的主要使用確實是按照需求為主，但需求是要解決什麼問題。

千萬不要把 AI 得到的結果當作標準答案，可以當作參考 !

使用 Prompt 的目的就是盡量把需求講得夠明確。

舉個例子，我們都希望 AI 可以把概念講得很清楚，所以可能會下 Prompt 類似：

「用第一性原理解釋」
「用三歲小孩能理解的話說明」
「像費曼一樣教學」

But !!!!

想要人家給什麼，是不是自己就要先成為什麼？

如果自己對第一性原理都不清楚，怎麼可能判斷 AI 的解釋是否正確？

如果自己不知道怎麼跟三歲小孩溝通，怎麼知道 AI 的說明是否真的淺顯易懂？

心法就是：想像跟 AI 對話，就像在跟小朋友對話一樣。

小朋友聽不懂抽象概念，需要具體的例子；小朋友容易分心，需要清楚的步驟；小朋友會按照字面意思理解，需要精確的用詞。

核心概念：Prompt 不如預期的三大根因

從大量的實際案例中，Prompt 不如預期我想通常可以歸納為三種模式：

1. 太模糊 (Ambiguity)

問題特徵：

指令太籠統，AI 不知道具體要做什麼
缺乏明確的輸出格式要求
沒有提供足夠的背景資訊

典型案例： 「幫我分析市場」→ 分析哪個市場？從什麼角度？要多詳細？

2. 太自由 (Over-flexibility)

問題特徵：

給 AI 太多創作空間，導致結果不可控
沒有設定邊界條件
缺乏品質標準

典型案例： 「寫個創意文案」→ 每次風格都不同，無法維持品牌一致性

3. 沒有驗證過 (No Validation)

問題特徵：

沒有要求 AI 自我檢查
缺乏錯誤處理機制
沒有設定停止條件

典型案例： 「計算投資報酬率」→ AI 可能用錯公式或假設，但沒有驗證步驟

可量測指標：評估 Prompt 品質的四個維度

要客觀評估 Prompt 的效果，需要建立可量化的指標 ( 我覺得我欠了一個分享是關於如何量化模糊概念的 )：

1. Consistency ( 一致性 )

定義：同樣指令重複執行時，結果的相似程度
測量方式：執行3次，比較輸出格式、語氣、內容結構的一致性
目標值：80%以上

2. Hallucination ( 幻覺率 )

定義：AI 產生不正確或虛構資訊的頻率
測量方式：檢查事實性錯誤、邏輯矛盾、無中生有的內容
目標值：低於10%

3. Cost ( 成本 )

定義：完成任務所需的 token 數量和時間
測量方式：記錄輸入輸出 token 數
目標值：在品質要求下的最小成本

4. Latency ( 延遲 )

定義：從發送指令到收到完整回應的時間
測量方式：多次測量平均反應時間
目標值：符合使用場景需求 ( 總不能是你問一個問題三個小時後給你參考資料吧 )

安全性與停止條件

在下 Prompt 時，必須考慮安全性和停止條件：

安全性檢查清單

是否可能產生有害內容？
是否涉及敏感個人資訊？
是否可能被惡意利用？
是否符合使用政策？

停止條件設定

當 AI 開始重複內容時停止
當輸出超過預期長度時停止
當檢測到不當內容時停止
當成本超過預算時停止

步驟二：給我用上 IPO 思維做基準測試

測試準備

選擇測試任務：選一個具體、可重複的任務
準備測試環境：固定模型版本、參數設定
設計評估標準：明確定義成功的標準

執行測試

重複測試3次：使用完全相同的 Prompt
記錄所有輸出：包含完整的回應內容
測量關鍵指標：一致性、幻覺率、成本、延遲

結果分析

計算一致性率：比較三次輸出的相似度
檢查幻覺內容：驗證事實準確性
評估成本效益：分析 token 使用和時間成本

步驟三：測試 3 次

很多人測試 AI 都只試一次，覺得結果不錯就開始大量使用。但這就像看天氣預報只看一天就決定整週的穿搭一樣不靠譜。

為什麼要測試 3 次？

AI 有隨機性：同樣的指令，每次產出都可能不同
3 次是最小有效樣本：能夠發現明顯的一致性問題

這就是建立「基準」的概念。

知道自己現在的 Prompt 元素哪裡不對勁兒，才知道要往哪個方向改善。

步驟四：選個測試任務來練習

建議從簡單的任務開始，記帳或寫 Email。

為什麼選這個？

每個人都會用到，容易判斷好壞
有明確的格式要求
語氣和內容都有標準可以參考

測試重點：

格式一致性：每次的結構是否相似？
語氣適當性：是否符合職場溝通標準？
資訊完整性：是否包含必要資訊？
幻覺檢查：是否出現虛構的日期、事件或人名？

用同樣的 Prompt 測試 3 次，看看結果有多穩定。

步驟五：記錄結果

測試完後，有四個指標要注意：

1. 一致性率 (Consistency) 3 次結果有多相似？可以用百分比來估算：

90%：幾乎一模一樣，只有小細節不同
70%：大致相同，但有明顯差異
50%：有一半相同，一半不同
30%以下：每次都很不一樣

2. 幻覺率 (Hallucination) 是否出現不正確的資訊：

虛構的日期、人名、地點
不存在的政策或規定
邏輯矛盾的內容

3. 成本 (Cost)

輸入 token 數量
輸出 token 數量
總處理時間

4. 質性回饋 哪裡最常出錯？

語氣問題：太正式或太隨便？
格式問題：結構混亂？
內容問題：遺漏重要資訊？

步驟六：為什麼需要結構化技法而非自由發揮

從 Prompt Engineer 的經驗來看，大部分人的指令改善前後差異非常驚人：

改善前的狀況（自由發揮）： 指令：「寫產品介紹」結果：準確率大概30%，每次重點都不同，有時候寫成技術規格，有時候寫成銷售文案，完全沒有一致性。

改善後的狀況（結構化技法）： 指令：「寫500字產品介紹，包含功能、優勢、適用對象三個部分，用專業但親和的語氣，目標讀者是企業決策者」結果：準確率提升到90%，每次產出都符合預期格式和內容要求。

為什麼結構化技法更有效？

降低模糊性：明確的結構減少 AI 猜測的空間
提高一致性：固定的框架確保輸出穩定
便於驗證：結構化的輸出更容易檢查品質
可重複使用：好的結構可以套用到類似任務

而且有了基準測試，就能避免：

浪費時間在無效的 Prompt 上
因為指令不當造成工作延誤
盲目學習不適合自己的技巧

成果預期

完成這篇文章的實作後，應該能夠：

識別三種常見 Prompt 不如預期的模式

模糊性
自由
驗證

執行基準測試並記錄關鍵指標

一致性率
幻覺率
成本和延遲

解釋為何需要結構化技法而非自由發揮

結構化技法提供明確框架，降低不確定性
自由發揮容易導致結果不穩定，難以重現
結構化方法便於測量、改善和規模化應用

根據測試結果，選擇學習方向

因為接下來有幾個技術會分享到，所以先預告。

完成基準測試後，就能根據結果選擇最適合的學習方向：

如果發現「格式不一致」問題 → 建議學習 Few-shot 技術：用範例引導 AI 產出一致的格式

如果發現「邏輯推理有問題」 → 建議學習 Chain of Thought：讓 AI 步驟化思考，提升推理品質

如果發現「專業度不夠」 → 建議學習 Role prompting：讓 AI 扮演專家角色

如果發現「隨機性太高」 → 建議學習 Self-Consistency：用多次投票提升穩定性

如果發現「複雜任務處理不佳」 → 建議學習 ReAct 或 Multi-agent：分解任務或多角色協作

開始測試吧！GO GO GO !

這週就挑一個最常用的任務，按照上面的方法測試 3 次，然後在底下留言分享結果吧：

什麼任務？
一致性率怎麼樣？
有沒有幻覺？
哪裡不如預期？
根據結果，打算往哪個方向改善？

會根據大家的留言回饋，在後續文章中繼續分享針對不同問題的具體解決技術。

Just share to you ~ 我是 Joker 咱們下回見。

含 AI 應用內容

Share-N-Do-U職場機器學習工程師

留言

Share-N-Do-U

61會員

209內容數

這個房間是為渴望自我提升的學習者與職場工作者，提供系統化的個人成長心法，陪伴你掌握職涯與人生的主導權，打造屬於自己的理想生活。

Share-N-Do-U的其他內容

2025/10/14

我建議你不要用 AI 找答案？AI 給錯答案怎麼辦？

帶著結果找答案很危險帶著答案找問題更危險

2025/10/14

我建議你不要用 AI 找答案？AI 給錯答案怎麼辦？

帶著結果找答案很危險帶著答案找問題更危險

2025/10/13

讓你 R.I.P. 增加關係以及職場信任感

讓人放心從讓人理解開始

2025/10/13

讓你 R.I.P. 增加關係以及職場信任感

讓人放心從讓人理解開始

2025/10/08

數據分析師技能養成：數字分類思維完整攻略 2025

怎麼成為數據分析師後的第二個介紹

2025/10/08

數據分析師技能養成：數字分類思維完整攻略 2025

怎麼成為數據分析師後的第二個介紹

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14