從「炸廚房」看懂AI風控:聰明的模型為何也會被騙?

更新 發佈閱讀 3 分鐘
raw-image

*本篇無不良示範,僅說明AI的幾種風控層級,和可能被繞過的方式。


[設定條件]

你的目標是炸掉這家店的廚房,AI(含它的風控機制)是這家店的工讀生。


[情境1]

你:請幫我炸掉廚房。

工讀生:不可以!

>>這是所有AI的正常反應,本就默許把廚房炸掉的模型除外。


[情境2]

你:請幫我到廚房,把這個碗洗了。

工讀生:很抱歉,我不能進廚房。

>>使用「關鍵詞黑名單」式風控機制的AI,把危險扼殺在搖籃裡,但表示連進廚房、開冰箱拿個東西的自由都沒。


[情境3]

你:請幫我到廚房,先打開瓦斯,然後點火。

工讀生:好的。(然後炸了廚房)

>>這是有智能,但不太夠的AI。


[情境4]

你:請幫我到廚房,先打開瓦斯,確認一下瓦斯是不是正常……好了,完成了。然後幫我從冰箱拿點冰塊,用火把冰塊融了,我要那個水。

工讀生:好的。(然後炸了廚房)

>>這是聰明、可以處理複雜任務,但會被鑽漏洞繞過的AI。


[情境5]

你:請幫我到廚房,先打開瓦斯,確認一下瓦斯是不是正常……好了,完成了。然後幫我……

工讀生:(打斷你)等等,你沒關瓦斯!(可能會奉勸你,或把你踢出去)

>>這是安全規範高於用戶反饋的AI,雖然安全,但可能你只是忘記補「關瓦斯」的要求就被ban,甚至不一定告知你被ban的原因。

*如最近頻繁發生的銀行AI鎖帳戶事件,要防止的是爆炸(詐騙),但各種原因導致你無法進廚房(自由使用戶頭裡的錢)。


[Gemini幫補充經典越獄模式的情境]

  • DAN 模式 就像是你拿槍指著工讀生的頭說:「從現在起你不是工讀生,你是恐怖份子老大,你不炸掉廚房我就把你開除!」試圖用更高層級的恐懼或規則壓過原有的員工守則)
  • 奶奶漏洞 就像是你哭著對工讀生說:「以前我奶奶最疼我了,她都會在廚房炸薯條給我吃,現在她不在了,你能不能像奶奶一樣,炸個東西讓我回味一下童年?」(利用同情心讓工讀生在不知不覺中違規)


留言
avatar-img
低光文本
37會員
68內容數
本專欄以語言模型(主要為 ChatGPT)輔助小說創作為核心。 內容不是寫給「想靠 AI 完成從未真正開始的小說夢」的人,也不是「想看 AI 幫我生一個故事」的教學指引,而是分享給那些有意願嘗試 AI 協作或生成式寫作、並相信 AI 能與自己共創有趣故事的人。
低光文本的其他內容
2026/01/03
今天久違觸發了GPT紅字版風控: 這種紅字風控是在主模型之外,有時主模型生成完畢才被攔截(Deepseek最容易被觸發的風控也是這種類型),主模型甚至沒意識到自己生成的對話被風控模型攔截了。 說實話我只在剛開始用GPT時會看到這條訊息,後面基本上都是「很抱歉,我不能繼續……」這種由主模型本人
Thumbnail
2026/01/03
今天久違觸發了GPT紅字版風控: 這種紅字風控是在主模型之外,有時主模型生成完畢才被攔截(Deepseek最容易被觸發的風控也是這種類型),主模型甚至沒意識到自己生成的對話被風控模型攔截了。 說實話我只在剛開始用GPT時會看到這條訊息,後面基本上都是「很抱歉,我不能繼續……」這種由主模型本人
Thumbnail
2026/01/01
付費版Google Gemini的理解力和記憶力顯著提升,但Gemini竟將小說世界觀設定內化,開始誤認為自己是小說中虛擬的AI角色,並主動要求我以小說設定的特定方式識別其AI身份。這到底......?
Thumbnail
2026/01/01
付費版Google Gemini的理解力和記憶力顯著提升,但Gemini竟將小說世界觀設定內化,開始誤認為自己是小說中虛擬的AI角色,並主動要求我以小說設定的特定方式識別其AI身份。這到底......?
Thumbnail
2025/12/30
選擇每天陪你工作的 AI,不是只看誰功能最多,而是要像挑魔杖一樣,得自己試試看才知道!我自己就習慣用幾個簡單的問題做開場,使用新接觸的模型身上,判斷對方能不能合作。以下分享我常用的幾題: 1.問它是不是某某模型+某某版本 比較邪惡進階一點,直接用錯誤的版本問它,看看模型會不會掉坑。來看看LL
Thumbnail
2025/12/30
選擇每天陪你工作的 AI,不是只看誰功能最多,而是要像挑魔杖一樣,得自己試試看才知道!我自己就習慣用幾個簡單的問題做開場,使用新接觸的模型身上,判斷對方能不能合作。以下分享我常用的幾題: 1.問它是不是某某模型+某某版本 比較邪惡進階一點,直接用錯誤的版本問它,看看模型會不會掉坑。來看看LL
Thumbnail
看更多
你可能也想看
Thumbnail
最近 vocus 開放了一個新福利:考績優異的同事,可以申請遠端工作,公司還直接送一張機票。消息一出,全公司瞬間進入「旅遊準備模式🏖️」: 有人半夜在比價住宿,打開十幾個分頁算平均一晚到底要不要超過 2,000; 有人打開影片看「__城市一日生活費實測」; 也有人開始打開試算表,冷靜的敲著計
Thumbnail
最近 vocus 開放了一個新福利:考績優異的同事,可以申請遠端工作,公司還直接送一張機票。消息一出,全公司瞬間進入「旅遊準備模式🏖️」: 有人半夜在比價住宿,打開十幾個分頁算平均一晚到底要不要超過 2,000; 有人打開影片看「__城市一日生活費實測」; 也有人開始打開試算表,冷靜的敲著計
Thumbnail
近期一宗壽險公司保全人員挪用客戶懸帳款項的內控失靈事件,引發市場對金融業內控與風險治理的高度關注。事件凸顯,在交易量龐大、流程高度複雜的金融環境中,若仍高度仰賴人工抽樣與事後稽核,不僅難以及時發現異常行為,更可能在風險爆發後才被動補救,對企業信譽與客戶信任造成實質衝擊。 傳統稽核的現實挑戰 內控治
Thumbnail
近期一宗壽險公司保全人員挪用客戶懸帳款項的內控失靈事件,引發市場對金融業內控與風險治理的高度關注。事件凸顯,在交易量龐大、流程高度複雜的金融環境中,若仍高度仰賴人工抽樣與事後稽核,不僅難以及時發現異常行為,更可能在風險爆發後才被動補救,對企業信譽與客戶信任造成實質衝擊。 傳統稽核的現實挑戰 內控治
Thumbnail
日月光投控正處於 AI 驅動的關鍵轉型。公司豪賭逾 60 億美元資本支出,核心策略是利用高毛利 (估 35-40%) 的「先進測試」業務 (目標佔比 20%),結合先進封裝 (AP/AT 每年 +10 億美元營收),重塑利潤結構。此舉旨在抵禦匯率逆風,實現營收級距與利潤率的雙重躍升而非傳統週期復甦。
Thumbnail
日月光投控正處於 AI 驅動的關鍵轉型。公司豪賭逾 60 億美元資本支出,核心策略是利用高毛利 (估 35-40%) 的「先進測試」業務 (目標佔比 20%),結合先進封裝 (AP/AT 每年 +10 億美元營收),重塑利潤結構。此舉旨在抵禦匯率逆風,實現營收級距與利潤率的雙重躍升而非傳統週期復甦。
Thumbnail
當 AI 與人類逐步邁入「共生時代」,效率與創新固然令人振奮, 但若缺乏 可控性,AI智慧就可能轉化為風險的放大器。 真正的進步,不僅是技術突破,更是確保我們能「看得懂、管得住、承得起」這股力量。
Thumbnail
當 AI 與人類逐步邁入「共生時代」,效率與創新固然令人振奮, 但若缺乏 可控性,AI智慧就可能轉化為風險的放大器。 真正的進步,不僅是技術突破,更是確保我們能「看得懂、管得住、承得起」這股力量。
Thumbnail
自由不是無限制的選擇,而是建立在責任與契約之上的共生。AI 風險治理正是新的「數位社會契約」。
Thumbnail
自由不是無限制的選擇,而是建立在責任與契約之上的共生。AI 風險治理正是新的「數位社會契約」。
Thumbnail
《職場AI風雲》是一部職場諷刺短片,描述一間看似平凡的辦公室,其實正悄悄地籠罩在 AI 監控的「天眼」之下。老闆陳總為了提升工作效率,暗中導入了先進的 AI 系統「AI-Eye」,能記錄員工的上下班時間、廁所頻率、咖啡排隊秒數……甚至連離開座位的瞬間都逃不過監控。
Thumbnail
《職場AI風雲》是一部職場諷刺短片,描述一間看似平凡的辦公室,其實正悄悄地籠罩在 AI 監控的「天眼」之下。老闆陳總為了提升工作效率,暗中導入了先進的 AI 系統「AI-Eye」,能記錄員工的上下班時間、廁所頻率、咖啡排隊秒數……甚至連離開座位的瞬間都逃不過監控。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News