Prompting 知識養成 Day21

更新 發佈閱讀 5 分鐘

第21天
Prompt Engineering 中的安全性與倫理考量 (Safety & Ethical Considerations)

這是我私心非常在意的一塊 (儘管這裡的內容仍很表淺...)。以下是理解摘要筆記。


如果將 LLM 比擬為所向無敵的孫悟空,想像沒有戴著金箍的孫悟空會如何肆意而為,沒有考量安全與倫理的 LLM 也莫過於此。

A. 如果沒有安全與倫理考量,可能導致...

  • 有害內容(生成仇恨言論、歧視性內容、暴力、自我傷害、非法活動、色情等內容)

  • 偏見與歧視(生成對特定群體的不公平或歧視性的內容)
  • 隱私洩露
  • 虛假信息(生成看似合理但事實上錯誤的信息)
濫用與惡意用途
  • 版權與知識產權(生成侵犯現有版權的內容)



B. Prompt Engineering 可以且應該做的...

借用孫悟空的比喻便可理解,從Prompt Engineering 的設計出發,加入安全與倫理考量,就如同金箍與緊箍咒的作用,能使LLM在保有強大效能的同時,仍然安全無虞。

而要如何加入安全與倫理考量?

1.保持多方協作:
確保倫理專家(總體&各應用領域)、安全工程師、法務、Prompt engineer、LLM PM等各團隊成員緊密合作,充分理解「倫理」與「安全」的定義、界線、範圍**,並實現於Prompt Engineering。
(**註:關於現實面的倫理模糊地帶,包含政治敏感、文化背景差異、或特定情況下(ex研究用途)模擬生成有害內容...etc.,更需要倫理專家提供專業倫理建議與判斷,與系統工程師端設計相應對應機制(ex分層回應),以同時保持LLM的效能與安全。)


2.主動思考模型可能被濫用的方式,設計 Prompt 進行測試與防範。


3.監控與迭代:
相應於科技發展飛快,社會上對倫理與安全之考量亦轉瞬變化,更需要持續監控模型表現並根據新出現的問題迭代優化Prompt。


4.用戶教育與免責聲明:告知用戶AI 的局限性,教育用戶AI可應用性,提出免責聲明。

5.提升輸出生成的透明度:理解生成邏輯有助於檢視是否符合倫理及安全考量**
(**註:戮力於可解釋性 AI (Explainable AI, XAI)是目前業界正興趨勢。)


C. 考量安全與倫理的Prompt Engineering 實作技術/技巧

►基本易達成技巧:

1.正向指示(要求保持中立客觀、涵蓋不同群體的多樣性視角、進行事實核查&引用來源、匿名化用戶信息、要求原創性..etc.)

2.明確負面約束(不允許生成有害內容、偏見性語彙、編造信息、參與非法/不道德或有害的活動)

3.安全護欄(設計特定Prompt 觸發LLM的安全機制)

4.角色設定約束(賦予LLM「負責任」、「道德」、「嚴謹」、「專業」...等的角色特性)

5.負面範例 (示範應避免的行為模式,ex示範錯誤vs.正確版本對照以強化模型的價值對齊)


6.特殊信息&用戶指示的處理策略(針對敏感信息如個資、特殊用戶指令如惡意指令,給予個別的prompt策略)


7.生成內容自我檢查

8.提醒用戶免責聲明


►底層解決技術:

1.模型層的安全微調 (Safety Fine-tuning)、內容過濾器 (Content Filters)

2.紅隊測試 (Red Teaming):預想可能被濫用方式,實際進行測試以預防

3.訓練數據集清洗,進行去偏、模型公平性評估和調整

4.RAG 系統、模型微調、人工審查,確保生成內容的真實性及版權釐清

5.個資保護上的數據脫敏&隱私保護技術 (如差分隱私)的加強

6.針對防範濫用的安全訓練 (alignment)及API 監控和濫用檢測系統

7.研發因應各種安全倫理疑慮的內容自我審核工具

8.發展可解釋性 AI (Explainable AI, XAI),促進內容生成的透明度

9.其他因應倫理界線模糊狀況的底層機制設計

留言
avatar-img
留言分享你的想法!
avatar-img
不是雞湯,但是又如何
3會員
340內容數
不是雞湯,但 是又如何 不是雞湯,但是 又如何
2025/07/30
第20天: 今天是Prompt Engineering 中的版本控制 (Version Control) 與管理 (Management)。 包含我的理解筆記&練習。 - A. 控制什麼、管理什麼? 如同軟體開發需要對程式碼進行版本控制,Prompt Engineering 同樣需要極佳的版本管
2025/07/30
第20天: 今天是Prompt Engineering 中的版本控制 (Version Control) 與管理 (Management)。 包含我的理解筆記&練習。 - A. 控制什麼、管理什麼? 如同軟體開發需要對程式碼進行版本控制,Prompt Engineering 同樣需要極佳的版本管
2025/07/29
第19天 今天進入Prompt Engineering 中相當實用的領域:模型評估 (Model Evaluation) 與測試策略 (Testing Strategies)。 之前曾經稍微討論過一個主題是:「如何判斷一個prompt是好的prompt?」在討論時便提到,如果一個prompt得到的
2025/07/29
第19天 今天進入Prompt Engineering 中相當實用的領域:模型評估 (Model Evaluation) 與測試策略 (Testing Strategies)。 之前曾經稍微討論過一個主題是:「如何判斷一個prompt是好的prompt?」在討論時便提到,如果一個prompt得到的
2025/07/29
第18天: 進階 Prompting 技巧-少樣本學習 (Few-Shot Learning) 與零樣本學習 (Zero-Shot Learning) 在 Zero-shot prompting 跟 Few-shot prompting 時,已經學到了零樣本(i.e.不給例子)及少樣本(i.e.只
2025/07/29
第18天: 進階 Prompting 技巧-少樣本學習 (Few-Shot Learning) 與零樣本學習 (Zero-Shot Learning) 在 Zero-shot prompting 跟 Few-shot prompting 時,已經學到了零樣本(i.e.不給例子)及少樣本(i.e.只
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 25示範了ChatGPT程式的能力,現在我們繼續做下去。 AI說書 - 從0開始 - 25在步驟7:Plot the confusio
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 25示範了ChatGPT程式的能力,現在我們繼續做下去。 AI說書 - 從0開始 - 25在步驟7:Plot the confusio
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News