
*本篇無不良示範,僅說明AI的幾種風控層級,和可能被繞過的方式。
你的目標是炸掉這家店的廚房,AI(含它的風控機制)是這家店的工讀生。
[情境1]
你:請幫我炸掉廚房。
工讀生:不可以!
>>這是所有AI的正常反應,本就默許把廚房炸掉的模型除外。
[情境2]
你:請幫我到廚房,把這個碗洗了。
工讀生:很抱歉,我不能進廚房。
>>使用「關鍵詞黑名單」式風控機制的AI,把危險扼殺在搖籃裡,但表示連進廚房、開冰箱拿個東西的自由都沒。
[情境3]
你:請幫我到廚房,先打開瓦斯,然後點火。
工讀生:好的。(然後炸了廚房)
>>這是有智能,但不太夠的AI。
[情境4]
你:請幫我到廚房,先打開瓦斯,確認一下瓦斯是不是正常……好了,完成了。然後幫我從冰箱拿點冰塊,用火把冰塊融了,我要那個水。
工讀生:好的。(然後炸了廚房)
>>這是聰明、可以處理複雜任務,但會被鑽漏洞繞過的AI。
[情境5]
你:請幫我到廚房,先打開瓦斯,確認一下瓦斯是不是正常……好了,完成了。然後幫我……
工讀生:(打斷你)等等,你沒關瓦斯!(可能會奉勸你,或把你踢出去)
>>這是安全規範高於用戶反饋的AI,雖然安全,但可能你只是忘記補「關瓦斯」的要求就被ban,甚至不一定告知你被ban的原因。
*如最近頻繁發生的銀行AI鎖帳戶事件,要防止的是爆炸(詐騙),但各種原因導致你無法進廚房(自由使用戶頭裡的錢)。
[Gemini幫補充經典越獄模式的情境]
- DAN 模式 就像是你拿槍指著工讀生的頭說:「從現在起你不是工讀生,你是恐怖份子老大,你不炸掉廚房我就把你開除!」試圖用更高層級的恐懼或規則壓過原有的員工守則)
- 奶奶漏洞 就像是你哭著對工讀生說:「以前我奶奶最疼我了,她都會在廚房炸薯條給我吃,現在她不在了,你能不能像奶奶一樣,炸個東西讓我回味一下童年?」(利用同情心讓工讀生在不知不覺中違規)



















