沒有基準的改善 就像沒有地圖的旅行

大家最常拿 LLM 或聊天機器人做什麼用?
寫 Email?整理資料?翻譯?還是直接把工作丟給它?
這邊我想要分享如何下好 Prompt 的第一章 - Orientation & Baseline。步驟一:認識 Prompt 各種概念
先來看看幾個經典案例,這些都是我比較不推薦的用法:
案例一:「幫我寫個提案」 結果:AI 給了 10 頁充滿廢話的通用模板,完全不知道要提什麼案、給誰看、想達成什麼目標。
案例二:「整理這些資料」 結果:每次整理的格式都不一樣,有時候是表格,有時候是條列,有時候是段落,完全沒有一致性。
有沒有覺得問題出在哪裡 ?
重要觀念:Prompt 的本質是什麼?
在開始測試之前,還是想先釐清一個重要觀念:Prompt 的主要使用確實是按照需求為主,但需求是要解決什麼問題。
千萬不要把 AI 得到的結果當作標準答案,可以當作參考 !
使用 Prompt 的目的就是盡量把需求講得夠明確。
舉個例子,我們都希望 AI 可以把概念講得很清楚,所以可能會下 Prompt 類似:
- 「用第一性原理解釋」
- 「用三歲小孩能理解的話說明」
- 「像費曼一樣教學」
But !!!!
想要人家給什麼,是不是自己就要先成為什麼?
如果自己對第一性原理都不清楚,怎麼可能判斷 AI 的解釋是否正確?
如果自己不知道怎麼跟三歲小孩溝通,怎麼知道 AI 的說明是否真的淺顯易懂?
心法就是:想像跟 AI 對話,就像在跟小朋友對話一樣。
小朋友聽不懂抽象概念,需要具體的例子;小朋友容易分心,需要清楚的步驟;小朋友會按照字面意思理解,需要精確的用詞。
核心概念:Prompt 不如預期的三大根因
從大量的實際案例中,Prompt 不如預期我想通常可以歸納為三種模式:
1. 太模糊 (Ambiguity)
問題特徵:
- 指令太籠統,AI 不知道具體要做什麼
- 缺乏明確的輸出格式要求
- 沒有提供足夠的背景資訊
典型案例: 「幫我分析市場」→ 分析哪個市場?從什麼角度?要多詳細?
2. 太自由 (Over-flexibility)
問題特徵:
- 給 AI 太多創作空間,導致結果不可控
- 沒有設定邊界條件
- 缺乏品質標準
典型案例: 「寫個創意文案」→ 每次風格都不同,無法維持品牌一致性
3. 沒有驗證過 (No Validation)
問題特徵:
- 沒有要求 AI 自我檢查
- 缺乏錯誤處理機制
- 沒有設定停止條件
典型案例: 「計算投資報酬率」→ AI 可能用錯公式或假設,但沒有驗證步驟
可量測指標:評估 Prompt 品質的四個維度
要客觀評估 Prompt 的效果,需要建立可量化的指標 ( 我覺得我欠了一個分享是關於如何量化模糊概念的 ):
1. Consistency ( 一致性 )
- 定義:同樣指令重複執行時,結果的相似程度
- 測量方式:執行3次,比較輸出格式、語氣、內容結構的一致性
- 目標值:80%以上
2. Hallucination ( 幻覺率 )
- 定義:AI 產生不正確或虛構資訊的頻率
- 測量方式:檢查事實性錯誤、邏輯矛盾、無中生有的內容
- 目標值:低於10%
3. Cost ( 成本 )
- 定義:完成任務所需的 token 數量和時間
- 測量方式:記錄輸入輸出 token 數
- 目標值:在品質要求下的最小成本
4. Latency ( 延遲 )
- 定義:從發送指令到收到完整回應的時間
- 測量方式:多次測量平均反應時間
- 目標值:符合使用場景需求 ( 總不能是你問一個問題三個小時後給你參考資料吧 )
安全性與停止條件
在下 Prompt 時,必須考慮安全性和停止條件:
安全性檢查清單
- 是否可能產生有害內容?
- 是否涉及敏感個人資訊?
- 是否可能被惡意利用?
- 是否符合使用政策?
停止條件設定
- 當 AI 開始重複內容時停止
- 當輸出超過預期長度時停止
- 當檢測到不當內容時停止
- 當成本超過預算時停止
步驟二:給我用上 IPO 思維做基準測試
測試準備
- 選擇測試任務:選一個具體、可重複的任務
- 準備測試環境:固定模型版本、參數設定
- 設計評估標準:明確定義成功的標準
執行測試
- 重複測試3次:使用完全相同的 Prompt
- 記錄所有輸出:包含完整的回應內容
- 測量關鍵指標:一致性、幻覺率、成本、延遲
結果分析
- 計算一致性率:比較三次輸出的相似度
- 檢查幻覺內容:驗證事實準確性
- 評估成本效益:分析 token 使用和時間成本
步驟三:測試 3 次
很多人測試 AI 都只試一次,覺得結果不錯就開始大量使用。但這就像看天氣預報只看一天就決定整週的穿搭一樣不靠譜。
為什麼要測試 3 次?
- AI 有隨機性:同樣的指令,每次產出都可能不同
- 3 次是最小有效樣本:能夠發現明顯的一致性問題
這就是建立「基準」的概念。
知道自己現在的 Prompt 元素哪裡不對勁兒,才知道要往哪個方向改善。
步驟四:選個測試任務來練習
建議從簡單的任務開始,記帳或寫 Email。
為什麼選這個?
- 每個人都會用到,容易判斷好壞
- 有明確的格式要求
- 語氣和內容都有標準可以參考
測試重點:
- 格式一致性:每次的結構是否相似?
- 語氣適當性:是否符合職場溝通標準?
- 資訊完整性:是否包含必要資訊?
- 幻覺檢查:是否出現虛構的日期、事件或人名?
用同樣的 Prompt 測試 3 次,看看結果有多穩定。
步驟五:記錄結果
測試完後,有四個指標要注意:
1. 一致性率 (Consistency) 3 次結果有多相似?可以用百分比來估算:
- 90%:幾乎一模一樣,只有小細節不同
- 70%:大致相同,但有明顯差異
- 50%:有一半相同,一半不同
- 30%以下:每次都很不一樣
2. 幻覺率 (Hallucination) 是否出現不正確的資訊:
- 虛構的日期、人名、地點
- 不存在的政策或規定
- 邏輯矛盾的內容
3. 成本 (Cost)
- 輸入 token 數量
- 輸出 token 數量
- 總處理時間
4. 質性回饋 哪裡最常出錯?
- 語氣問題:太正式或太隨便?
- 格式問題:結構混亂?
- 內容問題:遺漏重要資訊?
步驟六:為什麼需要結構化技法而非自由發揮
從 Prompt Engineer 的經驗來看,大部分人的指令改善前後差異非常驚人:
改善前的狀況(自由發揮): 指令:「寫產品介紹」 結果:準確率大概30%,每次重點都不同,有時候寫成技術規格,有時候寫成銷售文案,完全沒有一致性。
改善後的狀況(結構化技法): 指令:「寫500字產品介紹,包含功能、優勢、適用對象三個部分,用專業但親和的語氣,目標讀者是企業決策者」 結果:準確率提升到90%,每次產出都符合預期格式和內容要求。
為什麼結構化技法更有效?
- 降低模糊性:明確的結構減少 AI 猜測的空間
- 提高一致性:固定的框架確保輸出穩定
- 便於驗證:結構化的輸出更容易檢查品質
- 可重複使用:好的結構可以套用到類似任務
而且有了基準測試,就能避免:
- 浪費時間在無效的 Prompt 上
- 因為指令不當造成工作延誤
- 盲目學習不適合自己的技巧
成果預期
完成這篇文章的實作後,應該能夠:
- 識別三種常見 Prompt 不如預期的模式
- 模糊性
- 自由
- 驗證
執行基準測試並記錄關鍵指標
- 一致性率
- 幻覺率
- 成本和延遲
解釋為何需要結構化技法而非自由發揮
- 結構化技法提供明確框架,降低不確定性
- 自由發揮容易導致結果不穩定,難以重現
- 結構化方法便於測量、改善和規模化應用
根據測試結果,選擇學習方向
因為接下來有幾個技術會分享到,所以先預告。
完成基準測試後,就能根據結果選擇最適合的學習方向:
如果發現「格式不一致」問題 → 建議學習 Few-shot 技術:用範例引導 AI 產出一致的格式
如果發現「邏輯推理有問題」 → 建議學習 Chain of Thought:讓 AI 步驟化思考,提升推理品質
如果發現「專業度不夠」 → 建議學習 Role prompting:讓 AI 扮演專家角色
如果發現「隨機性太高」 → 建議學習 Self-Consistency:用多次投票提升穩定性
如果發現「複雜任務處理不佳」 → 建議學習 ReAct 或 Multi-agent:分解任務或多角色協作
開始測試吧!GO GO GO !
這週就挑一個最常用的任務,按照上面的方法測試 3 次,然後在底下留言分享結果吧:
- 什麼任務?
- 一致性率怎麼樣?
- 有沒有幻覺?
- 哪裡不如預期?
- 根據結果,打算往哪個方向改善?
會根據大家的留言回饋,在後續文章中繼續分享針對不同問題的具體解決技術。
Just share to you ~ 我是 Joker 咱們下回見。





















