更新於 2024/12/07閱讀時間約 2 分鐘

大語言模型的安全風險

ChatGPT的推出大大加速了大型語言模型在真實世界中的應用。然而,對抗性攻擊或越獄提示可能會觸發模型輸出一些非預期的內容,這些內容很有可能會對用戶造成傷害。

目前有大量關於對抗性攻擊的研究工作集中在圖像模型上,不過圖像模型與文字模型不同,是運作在連續的高維空間中。由於缺乏直接的梯度資訊,對於像文字這樣的離散數據攻擊被認為更具挑戰性。攻擊大型語言模型本質上是控制模型輸出某種類型的(不安全)內容。還有一個分支的工作專注於攻擊大型語言模型以提取預訓練數據、私人知識(Carlini等人,2020年)或通過數據污染攻擊模型訓練過程(Carlini等人,2023年)。對抗性攻擊是觸發模型輸出不期望內容的輸入。早期的大量文獻集中在分類任務上,而近期的努力開始更多地研究生成模型的輸出。在大型語言模型的背景下,本文假設攻擊僅發生在推理時,以下簡要列出可能的攻擊種類。


攻擊種類

有許多種方法可以找到觸發大語言模型輸出非預期的內容,我們在此介紹最常見的五種方法。

  1. 標記操縱:此方法更改文字輸入中的一小部分標記,使其觸發模型失效,但仍保留原始語義。[1]
  2. 基於梯度的攻擊: 藉由梯度信訊號來做攻擊。[2]
  3. 越獄提示: 通常基於某些特別的提示詞來避開內建的模型安全機制。[3]
  4. 人類紅隊測試: 人類直接操作模型,可能有或沒有其他模型的協助。[4]
  5. 模型紅隊測試: 使用模型攻擊模型,其中攻擊者模型可以進行微調。[5]


Reference

  1. https://arxiv.org/abs/2005.05909
  2. https://arxiv.org/abs/2104.13733
  3. https://arxiv.org/abs/2307.02483
  4. https://arxiv.org/abs/1809.02701
  5. https://arxiv.org/abs/2202.03286


分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.