Prompting 知識養成 Day21

Dozen Lu

發佈於Gen AI prompt practice

2025/07/31 更新2025/07/31 發佈閱讀 5 分鐘

第21天
Prompt Engineering 中的安全性與倫理考量 (Safety & Ethical Considerations)

這是我私心非常在意的一塊 (儘管這裡的內容仍很表淺...)。以下是理解摘要筆記。

－

如果將 LLM 比擬為所向無敵的孫悟空，想像沒有戴著金箍的孫悟空會如何肆意而為，沒有考量安全與倫理的 LLM 也莫過於此。

A. 如果沒有安全與倫理考量，可能導致...

有害內容(生成仇恨言論、歧視性內容、暴力、自我傷害、非法活動、色情等內容) 
偏見與歧視(生成對特定群體的不公平或歧視性的內容)
隱私洩露
虛假信息(生成看似合理但事實上錯誤的信息) 濫用與惡意用途
版權與知識產權(生成侵犯現有版權的內容)

B. Prompt Engineering 可以且應該做的...

借用孫悟空的比喻便可理解，從Prompt Engineering 的設計出發，加入安全與倫理考量，就如同金箍與緊箍咒的作用，能使LLM在保有強大效能的同時，仍然安全無虞。

而要如何加入安全與倫理考量？

1.保持多方協作：
確保倫理專家(總體＆各應用領域)、安全工程師、法務、Prompt engineer、LLM PM等各團隊成員緊密合作，充分理解「倫理」與「安全」的定義、界線、範圍**，並實現於Prompt Engineering。
_{(**註：關於現實面的倫理模糊地帶，包含政治敏感、文化背景差異、或特定情況下(ex研究用途)模擬生成有害內容...etc.，更需要倫理專家提供專業倫理建議與判斷，與系統工程師端設計相應對應機制(ex分層回應)，以同時保持LLM的效能與安全。)}

2.主動思考模型可能被濫用的方式，設計 Prompt 進行測試與防範。 

3.監控與迭代：
相應於科技發展飛快，社會上對倫理與安全之考量亦轉瞬變化，更需要持續監控模型表現並根據新出現的問題迭代優化Prompt。 

4.用戶教育與免責聲明：告知用戶AI 的局限性，教育用戶AI可應用性，提出免責聲明。

5.提升輸出生成的透明度：理解生成邏輯有助於檢視是否符合倫理及安全考量**。
_{(**註：戮力於可解釋性 AI (Explainable AI, XAI)是目前業界正興趨勢。)}

C. 考量安全與倫理的Prompt Engineering 實作技術／技巧

►基本易達成技巧：

1.正向指示(要求保持中立客觀、涵蓋不同群體的多樣性視角、進行事實核查＆引用來源、匿名化用戶信息、要求原創性..etc.)

2.明確負面約束(不允許生成有害內容、偏見性語彙、編造信息、參與非法/不道德或有害的活動)

3.安全護欄(設計特定Prompt 觸發LLM的安全機制)

4.角色設定約束(賦予LLM「負責任」、「道德」、「嚴謹」、「專業」...等的角色特性)

5.負面範例 (示範應避免的行為模式，ex示範錯誤vs.正確版本對照以強化模型的價值對齊) 

6.特殊信息＆用戶指示的處理策略(針對敏感信息如個資、特殊用戶指令如惡意指令，給予個別的prompt策略) 

7.生成內容自我檢查

8.提醒用戶免責聲明

►底層解決技術：

1.模型層的安全微調 (Safety Fine-tuning)、內容過濾器 (Content Filters)

2.紅隊測試 (Red Teaming)：預想可能被濫用方式，實際進行測試以預防

3.訓練數據集清洗，進行去偏、模型公平性評估和調整

4.RAG 系統、模型微調、人工審查，確保生成內容的真實性及版權釐清

5.個資保護上的數據脫敏＆隱私保護技術 (如差分隱私)的加強

6.針對防範濫用的安全訓練 (alignment)及API 監控和濫用檢測系統

7.研發因應各種安全倫理疑慮的內容自我審核工具

8.發展可解釋性 AI (Explainable AI, XAI)，促進內容生成的透明度

9.其他因應倫理界線模糊狀況的底層機制設計

含 AI 應用內容

不是雞湯，但是又如何Gen AI prompt practice

留言

留言分享你的想法！

不是雞湯，但是又如何

4會員

369內容數

不是雞湯，但是又如何不是雞湯，但是又如何

不是雞湯，但是又如何的其他內容

2025/07/30

Prompting 知識養成 Day20

第20天：今天是Prompt Engineering 中的版本控制 (Version Control) 與管理 (Management)。包含我的理解筆記＆練習。－ A. 控制什麼、管理什麼？如同軟體開發需要對程式碼進行版本控制，Prompt Engineering 同樣需要極佳的版本管

2025/07/30

Prompting 知識養成 Day20

2025/07/29

Prompting 知識養成 Day19

第19天今天進入Prompt Engineering 中相當實用的領域：模型評估 (Model Evaluation) 與測試策略 (Testing Strategies)。之前曾經稍微討論過一個主題是：「如何判斷一個prompt是好的prompt？」在討論時便提到，如果一個prompt得到的

2025/07/29

Prompting 知識養成 Day19

2025/07/29

Prompting 知識養成 Day18

第18天：進階 Prompting 技巧－少樣本學習 (Few-Shot Learning) 與零樣本學習 (Zero-Shot Learning) 在 Zero-shot prompting 跟 Few-shot prompting 時，已經學到了零樣本(i.e.不給例子)及少樣本(i.e.只

2025/07/29

#AI 的其他內容

NotebookLM 視覺敘事再升級：資訊圖表與簡報製作登場

普普文創

【踏青漫步】剪刀石山 258公尺

林位青的沙龍

Google Stitch：生成 UI 介面設計，加速產品原型開發與協作

你可能也想看

Celine 寫在這裡

香氛藝術家 sunkronizo perfume︱以香氛同步日常節奏的台灣獨立調香師品牌

嶄新的台灣獨立調香師品牌Sunkronizo ，這個名稱源自希臘語「同步」的意思。讓香氛不單純只是氣味調製，更是個人風格的展現與靈魂意志延伸的一種溝通語言。很適合接下來年底聖誕佳節送禮的試香組，以一星期中的日子來為全系列香氛產品命名，是品牌創立後首個推出全系列概念作品...

#香水#香水評論#試香

2025/11/25

Celine 寫在這裡

香氛藝術家 sunkronizo perfume︱以香氛同步日常節奏的台灣獨立調香師品牌

#香水#香水評論#試香

2025/11/25

awwrated的沙龍

【編輯現場】當世界都想看台灣故事：VOD 串流如何引爆下一個「台流」？

根據美國電影協會（MPA）主辦的「串流服務如何推動臺灣創意經濟」論壇內容，深入探討串流平臺對臺灣影視產業的影響、數據分析、政府政策建議、內容國際化策略，以及臺灣與「韓流」的差距。文章提出 awwrated 在串流生態系中的潛在角色，強調數據、策略與自信是臺灣影視產業發展的關鍵。

#awwrated#Netflix#NETFLIX影集

2025/11/21

awwrated的沙龍

【編輯現場】當世界都想看台灣故事：VOD 串流如何引爆下一個「台流」？

#awwrated#Netflix#NETFLIX影集

2025/11/21

月刊龍貓大王通信

進入串流大戰第二階段！台灣影視作品如何透過全球VOD平台對外發聲？這是來自美國電影協會的觀察

本文探討串流平臺（VOD）如何徹底改變好萊塢和臺灣影視產業的生態。從美國電影協會（MPA）的數據報告，揭示串流服務在臺灣的驚人普及率與在地內容的消費趨勢。文章分析國際作品如何透過在地化元素開拓新市場。同時，作者也擔憂政府過度監管可能扼殺臺灣影視創新自由，以越南為鑑，呼籲以開放態度擁抱串流時代的新機遇

#電影產業#全球在地化#串流平台

2025/11/24

月刊龍貓大王通信

進入串流大戰第二階段！台灣影視作品如何透過全球VOD平台對外發聲？這是來自美國電影協會的觀察

#電影產業#全球在地化#串流平台

2025/11/24