Anthropic為什麼要自己挑戰越獄？

更新於 2024/04/11發佈於 2024/04/11閱讀時間約 3 分鐘

本圖片由AI生成

大型語言模型（LLM）在商業正式使用上，「幻覺」和「越獄」是兩個很關鍵的問題。「幻覺」通常指模型生成的內容與現實世界的事實不符或缺乏邏輯性。這種情況下，LLM可能會創建出看似合理但實際上是虛構的資訊或敘述，也就是大家最喜歡說的「一本正經的胡說八道」。

「越獄」（Prompt Injection 或 Prompt Hacking）是一種技術，通過在提示中巧妙地插入特定的文本或指令，使得LLM執行非預期的操作或生成不符合原始用途的輸出。這可以被視為一種操縱或欺騙模型的行為，使其超出正常或安全的使用範圍。

現在商用的LLM模型，在規劃上面都會加設相關的限制，以避免被利用為產生非法內容，或協助非法行為。而各種越獄方式的嘗試，除了一部分是技術人員想挑戰自身能力外，也是作為整體規劃優化很好的一種建議模式。日期AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術，除了公開越獄的方式，也讓其他AI 開發人員了解這個漏洞，同時對Anthropic的系統上也做了相應措施。

在過去的經驗中，長文本的輸入本來就容易達成越獄，不管是逆向發現Prompt設定，或是產出錯誤內容，生成式AI對於長文本本來就容易偷懶、產生幻覺或是錯誤答案。但本次Anthropic是採用上下文參考的模式，將原本設定拒絕回答的違法內容，以多個例句作為上下文參考，然後在對話的最後加入真正要詢問的違法內容。模型會因為受到上下文的影響，而回答不應該回答的內容。

根據Anthropic的分享Many-shotjailbreaking的有效性與「情境學習」的過程有關。情境學習是指 LLM 僅使用提示中提供的資訊進行學習，而無需進行任何後期微調。在正常的、與越獄無關的情況下，情境學習遵循與越來越多的及時演示的多次越獄相同的統計模式。也就是說，對於更多的「嘗試」，一組良性任務的性能會以與我們看到的多次越獄的改進相同的模式進行改進。簡單來說，就是直接問一個問題，可能因為模型需要考慮的點很多，所以回答出不是那麼好的結果，但因為增加了前後文案例的參考，模型就會自己修正回答更符合使用者需求的內容。同時，對於較大的模型來說，Many-shotjailbreaking通常更有效。LLM越大，它就越能在上下文學習中表現得更好。

本圖片由AI生成

Anthropic主動自己發表這個越獄方法及解決方案，是希望通過分享，讓其他的AI研究人員也能主動知道這個風險並主動的管理風險。在各家紛紛推動運用LLM作為工作助理、生活助理、專業領域知識庫的同時，設定防範規則及機制就分外重要。因為AI夠強大，所以為了服務的便利，若是AI所經手的資訊產生漏洞，那傷害恐怕就難以挽回了。

其實防堵規則本來就會有漏洞，任何的法規和機制的設定，大家主動尋找及分享漏洞本來就是基礎人性。但AI對於社會的影響極大，因此在社會安全的防護上，如果各企業能有更多分享和交流，勢必對於形成「可信任」的AI，是正向的幫助。