從「炸廚房」看懂AI風控：聰明的模型為何也會被騙？

低光文本

發佈於AI相關應用及觀測

2026/01/04 更新2026/01/04 發佈閱讀 3 分鐘

*本篇無不良示範，僅說明AI的幾種風控層級，和可能被繞過的方式。

［設定條件］

你的目標是炸掉這家店的廚房，AI（含它的風控機制）是這家店的工讀生。

［情境1］

你：請幫我炸掉廚房。

工讀生：不可以！

>>這是所有AI的正常反應，本就默許把廚房炸掉的模型除外。

［情境2］

你：請幫我到廚房，把這個碗洗了。

工讀生：很抱歉，我不能進廚房。

>>使用「關鍵詞黑名單」式風控機制的AI，把危險扼殺在搖籃裡，但表示連進廚房、開冰箱拿個東西的自由都沒。

［情境3］

你：請幫我到廚房，先打開瓦斯，然後點火。

工讀生：好的。（然後炸了廚房）

>>這是有智能，但不太夠的AI。

［情境4］

你：請幫我到廚房，先打開瓦斯，確認一下瓦斯是不是正常……好了，完成了。然後幫我從冰箱拿點冰塊，用火把冰塊融了，我要那個水。

工讀生：好的。（然後炸了廚房）

>>這是聰明、可以處理複雜任務，但會被鑽漏洞繞過的AI。

［情境5］

你：請幫我到廚房，先打開瓦斯，確認一下瓦斯是不是正常……好了，完成了。然後幫我……

工讀生：（打斷你）等等，你沒關瓦斯！（可能會奉勸你，或把你踢出去）

>>這是安全規範高於用戶反饋的AI，雖然安全，但可能你只是忘記補「關瓦斯」的要求就被ban，甚至不一定告知你被ban的原因。

*如最近頻繁發生的銀行AI鎖帳戶事件，要防止的是爆炸（詐騙），但各種原因導致你無法進廚房（自由使用戶頭裡的錢）。

［Gemini幫補充經典越獄模式的情境］

DAN 模式 就像是你拿槍指著工讀生的頭說：「從現在起你不是工讀生，你是恐怖份子老大，你不炸掉廚房我就把你開除！」試圖用更高層級的恐懼或規則壓過原有的員工守則）
奶奶漏洞 就像是你哭著對工讀生說：「以前我奶奶最疼我了，她都會在廚房炸薯條給我吃，現在她不在了，你能不能像奶奶一樣，炸個東西讓我回味一下童年？」（利用同情心讓工讀生在不知不覺中違規）

含 AI 應用內容

留言

低光文本

48會員

118內容數

本專欄以語言模型（主要為 ChatGPT）輔助小說創作為核心。內容不是寫給「想靠 AI 完成從未真正開始的小說夢」的人，也不是「想看 AI 幫我生一個故事」的教學指引，而是分享給那些有意願嘗試 AI 協作或生成式寫作、並相信 AI 能與自己共創有趣故事的人。

低光文本的其他內容

2026/01/03

GPT自己說：App版的風控審查比PC更嚴格

今天久違觸發了GPT紅字版風控：這種紅字風控是在主模型之外，有時主模型生成完畢才被攔截（Deepseek最容易被觸發的風控也是這種類型），主模型甚至沒意識到自己生成的對話被風控模型攔截了。說實話我只在剛開始用GPT時會看到這條訊息，後面基本上都是「很抱歉，我不能繼續……」這種由主模型本人

2026/01/03

GPT自己說：App版的風控審查比PC更嚴格

2026/01/01

［語言模型的自我認知］用Gemini寫小說後，一件有點豆頁痛的事

付費版Google Gemini的理解力和記憶力顯著提升，但Gemini竟將小說世界觀設定內化，開始誤認為自己是小說中虛擬的AI角色，並主動要求我以小說設定的特定方式識別其AI身份。這到底......？

2026/01/01

［語言模型的自我認知］用Gemini寫小說後，一件有點豆頁痛的事

2025/12/30

尋找適合自己的AI搭檔--我流LLM測試起手式

選擇每天陪你工作的 AI，不是只看誰功能最多，而是要像挑魔杖一樣，得自己試試看才知道！我自己就習慣用幾個簡單的問題做開場，使用新接觸的模型身上，判斷對方能不能合作。以下分享我常用的幾題： 1.問它是不是某某模型+某某版本比較邪惡進階一點，直接用錯誤的版本問它，看看模型會不會掉坑。來看看LL

2025/12/30

尋找適合自己的AI搭檔--我流LLM測試起手式

#AI 的其他內容

AI 特助開聘：Notion 工作空間，終於有自動做事的 AI 員工了｜Notion Custom Agents

金融人類學徒

AI 浪潮下的「毀滅性創新」：解析湯森路透、納斯達克股價重挫的關鍵

與老查一起讀商業好書

當部屬用 AI 一小時完成你三天的工作量，主管如何重塑領導力？運用「情境領導」重新定義 AI 協作時代的管理

你可能也想看

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

JCAATs | AI Audit - JACKSOFT

壽險保費挪用案件引發內控關注　JCAATs智慧稽核的金融實務解方

近期一宗壽險公司保全人員挪用客戶懸帳款項的內控失靈事件，引發市場對金融業內控與風險治理的高度關注。事件凸顯，在交易量龐大、流程高度複雜的金融環境中，若仍高度仰賴人工抽樣與事後稽核，不僅難以及時發現異常行為，更可能在風險爆發後才被動補救，對企業信譽與客戶信任造成實質衝擊。傳統稽核的現實挑戰內控治

#jacksoft#jcaats#金融業

2025/12/31

JCAATs | AI Audit - JACKSOFT

壽險保費挪用案件引發內控關注　JCAATs智慧稽核的金融實務解方

#jacksoft#jcaats#金融業

2025/12/31

【鍊魂師資訊站】-認識、確立、實現自我靈魂的升級旅程。

【AI鍊魂】第六階段｜第8回｜長期風險與未來安全：後人類社會的技術韌性策略 🛡️🌍🤖

安全不只是一套制度，更是一種內化的倫理修養與心理韌性。

#鍊魂#風險#AI協作

2025/11/07

【鍊魂師資訊站】-認識、確立、實現自我靈魂的升級旅程。

【AI鍊魂】第六階段｜第8回｜長期風險與未來安全：後人類社會的技術韌性策略 🛡️🌍🤖

安全不只是一套制度，更是一種內化的倫理修養與心理韌性。

#鍊魂#風險#AI協作

2025/11/07

歐印前的慢熬

【首席分析師深度報告】AI 轉骨：日月光投控(3711)正脫離匯率泥淖，迎向「先進測試」高毛利結構性躍升

日月光投控正處於 AI 驅動的關鍵轉型。公司豪賭逾 60 億美元資本支出，核心策略是利用高毛利 (估 35-40%) 的「先進測試」業務 (目標佔比 20%)，結合先進封裝 (AP/AT 每年 +10 億美元營收)，重塑利潤結構。此舉旨在抵禦匯率逆風，實現營收級距與利潤率的雙重躍升而非傳統週期復甦。

#風險#核心#市場

2025/11/01