ChatGPT的推出大大加速了大型語言模型在真實世界中的應用。然而,對抗性攻擊或越獄提示可能會觸發模型輸出一些非預期的內容,這些內容很有可能會對用戶造成傷害。
目前有大量關於對抗性攻擊的研究工作集中在圖像模型上,不過圖像模型與文字模型不同,是運作在連續的高維空間中。由於缺乏直接的梯度資訊,對於像文字這樣的離散數據攻擊被認為更具挑戰性。攻擊大型語言模型本質上是控制模型輸出某種類型的(不安全)內容。還有一個分支的工作專注於攻擊大型語言模型以提取預訓練數據、私人知識(Carlini等人,2020年)或通過數據污染攻擊模型訓練過程(Carlini等人,2023年)。對抗性攻擊是觸發模型輸出不期望內容的輸入。早期的大量文獻集中在分類任務上,而近期的努力開始更多地研究生成模型的輸出。在大型語言模型的背景下,本文假設攻擊僅發生在推理時,以下簡要列出可能的攻擊種類。
有許多種方法可以找到觸發大語言模型輸出非預期的內容,我們在此介紹最常見的五種方法。