大語言模型的安全風險

2024/12/07 更新2024/12/07 發佈閱讀 2 分鐘

ChatGPT的推出大大加速了大型語言模型在真實世界中的應用。然而，對抗性攻擊或越獄提示可能會觸發模型輸出一些非預期的內容，這些內容很有可能會對用戶造成傷害。

目前有大量關於對抗性攻擊的研究工作集中在圖像模型上，不過圖像模型與文字模型不同，是運作在連續的高維空間中。由於缺乏直接的梯度資訊，對於像文字這樣的離散數據攻擊被認為更具挑戰性。攻擊大型語言模型本質上是控制模型輸出某種類型的（不安全）內容。還有一個分支的工作專注於攻擊大型語言模型以提取預訓練數據、私人知識（Carlini等人，2020年）或通過數據污染攻擊模型訓練過程（Carlini等人，2023年）。對抗性攻擊是觸發模型輸出不期望內容的輸入。早期的大量文獻集中在分類任務上，而近期的努力開始更多地研究生成模型的輸出。在大型語言模型的背景下，本文假設攻擊僅發生在推理時，以下簡要列出可能的攻擊種類。

攻擊種類

有許多種方法可以找到觸發大語言模型輸出非預期的內容，我們在此介紹最常見的五種方法。

標記操縱:此方法更改文字輸入中的一小部分標記，使其觸發模型失效，但仍保留原始語義。[1]
基於梯度的攻擊: 藉由梯度信訊號來做攻擊。[2]
越獄提示: 通常基於某些特別的提示詞來避開內建的模型安全機制。[3]
人類紅隊測試: 人類直接操作模型，可能有或沒有其他模型的協助。[4]
模型紅隊測試: 使用模型攻擊模型，其中攻擊者模型可以進行微調。[5]

Reference

https://arxiv.org/abs/2005.05909
https://arxiv.org/abs/2104.13733
https://arxiv.org/abs/2307.02483
https://arxiv.org/abs/1809.02701
https://arxiv.org/abs/2202.03286

留言

Kiki的沙龍

7會員

93內容數

心繫正體中文的科學家，立志使用正體中文撰寫文章。此沙龍預計涵蓋各項資訊科技知識分享與學習心得

Kiki的沙龍的其他內容

2025/04/27

自己在家組Ollama大語言模型伺服器

Meta 推出了開源大型語言模型 Llama。這一代特別引人注目，因為 80 億參數的模型小到可以在家用電腦上運行，效能卻不輸比它大十倍的模型。在許多應用場景下，它給出的回應品質已經能媲美 GPT-4。在這篇文章裡，我會說明自架 Llama 3 的優缺點，並提供設定方式與資源，讓讀者也能輕鬆動手。

2025/04/27

自己在家組Ollama大語言模型伺服器

2025/04/20

建立人工智慧代理人實務指引

這份實務指引旨在協助產品和工程團隊入門大型語言模型（LLM）驅動的人工智慧代理人建構，它定義了代理的核心概念，例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理，特別是在傳統自動化方法受限的複雜情境，並深入探討了代理設計的基礎要素，包括模型選擇、工具整合及指令設置。

2025/04/20

建立人工智慧代理人實務指引

2025/04/06

用Docker Model Runner 輕鬆在本地執行 LLM

這篇文章將搭配簡單的範例，介紹最近推出的 Docker Model Runner。內容比較隨意粗略，希望能成為讓讀者了解這項工具的契機！

2025/04/06

用Docker Model Runner 輕鬆在本地執行 LLM

這篇文章將搭配簡單的範例，介紹最近推出的 Docker Model Runner。內容比較隨意粗略，希望能成為讓讀者了解這項工具的契機！

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11