大語言模型的安全風險

更新於 發佈於 閱讀時間約 2 分鐘

ChatGPT的推出大大加速了大型語言模型在真實世界中的應用。然而,對抗性攻擊或越獄提示可能會觸發模型輸出一些非預期的內容,這些內容很有可能會對用戶造成傷害。

目前有大量關於對抗性攻擊的研究工作集中在圖像模型上,不過圖像模型與文字模型不同,是運作在連續的高維空間中。由於缺乏直接的梯度資訊,對於像文字這樣的離散數據攻擊被認為更具挑戰性。攻擊大型語言模型本質上是控制模型輸出某種類型的(不安全)內容。還有一個分支的工作專注於攻擊大型語言模型以提取預訓練數據、私人知識(Carlini等人,2020年)或通過數據污染攻擊模型訓練過程(Carlini等人,2023年)。對抗性攻擊是觸發模型輸出不期望內容的輸入。早期的大量文獻集中在分類任務上,而近期的努力開始更多地研究生成模型的輸出。在大型語言模型的背景下,本文假設攻擊僅發生在推理時,以下簡要列出可能的攻擊種類。


攻擊種類

有許多種方法可以找到觸發大語言模型輸出非預期的內容,我們在此介紹最常見的五種方法。

  1. 標記操縱:此方法更改文字輸入中的一小部分標記,使其觸發模型失效,但仍保留原始語義。[1]
  2. 基於梯度的攻擊: 藉由梯度信訊號來做攻擊。[2]
  3. 越獄提示: 通常基於某些特別的提示詞來避開內建的模型安全機制。[3]
  4. 人類紅隊測試: 人類直接操作模型,可能有或沒有其他模型的協助。[4]
  5. 模型紅隊測試: 使用模型攻擊模型,其中攻擊者模型可以進行微調。[5]


Reference

  1. https://arxiv.org/abs/2005.05909
  2. https://arxiv.org/abs/2104.13733
  3. https://arxiv.org/abs/2307.02483
  4. https://arxiv.org/abs/1809.02701
  5. https://arxiv.org/abs/2202.03286


留言
avatar-img
留言分享你的想法!
avatar-img
Kiki的沙龍
3會員
45內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
Kiki的沙龍的其他內容
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
看更多
你可能也想看
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
許多ChatGPT付費用戶誤以為已確保資料安全,卻忽略關閉「為所有人改善模型」設定,導致輸入資料仍可能被OpenAI用於訓練模型。本文提醒用戶務必檢查並關閉此設定,並建議去識別化敏感資料及避免上傳機密資訊,以確保資料安全。
Thumbnail
許多ChatGPT付費用戶誤以為已確保資料安全,卻忽略關閉「為所有人改善模型」設定,導致輸入資料仍可能被OpenAI用於訓練模型。本文提醒用戶務必檢查並關閉此設定,並建議去識別化敏感資料及避免上傳機密資訊,以確保資料安全。
Thumbnail
ChatGPT 是什麼?可以幫助你做什麼?ChatGPT 是一款由 OpenAI 開發的 AI 對話助手,它可以根據你的輸入提供文字回應,幫助你解決問題、產生創意、學習新知識,甚至協助工作與寫作!本文將介紹 ChatGPT 的功能、使用方法、安全性及注意事項,並說明其付費和免費版本之間的差異。
Thumbnail
ChatGPT 是什麼?可以幫助你做什麼?ChatGPT 是一款由 OpenAI 開發的 AI 對話助手,它可以根據你的輸入提供文字回應,幫助你解決問題、產生創意、學習新知識,甚至協助工作與寫作!本文將介紹 ChatGPT 的功能、使用方法、安全性及注意事項,並說明其付費和免費版本之間的差異。
Thumbnail
近年來,對話式AI取得了顯著的進展,而ChatGPT正處於這場革命的前沿。ChatGPT由OpenAI開發,它是一種基於先進語言模型的AI,利用深度學習技術進行互動和類人對話。在本文中,我們將深入探討ChatGPT的能力、應用、影響以及對各個行業和領域的影響,展示它在改變我們與AI互動方式方面的潛
Thumbnail
近年來,對話式AI取得了顯著的進展,而ChatGPT正處於這場革命的前沿。ChatGPT由OpenAI開發,它是一種基於先進語言模型的AI,利用深度學習技術進行互動和類人對話。在本文中,我們將深入探討ChatGPT的能力、應用、影響以及對各個行業和領域的影響,展示它在改變我們與AI互動方式方面的潛
Thumbnail
AI近期如ChatGPT再次受到矚目。其在模式識別領域表現卓越,但仍有局限,如無法深入理解人類情感。AI商業化帶來資料、模型和法規上的挑戰。我們需要在享受AI便利時,認識其限制,並策略性地最大化其價值,同時減少風險。
Thumbnail
AI近期如ChatGPT再次受到矚目。其在模式識別領域表現卓越,但仍有局限,如無法深入理解人類情感。AI商業化帶來資料、模型和法規上的挑戰。我們需要在享受AI便利時,認識其限制,並策略性地最大化其價值,同時減少風險。
Thumbnail
AI浪潮 自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百
Thumbnail
AI浪潮 自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百
Thumbnail
什麼是生成式AI 生成式學習是生成有結構的複雜物件,包含文句、影像、語音等。通過學習大量的數據,從而可以生成與原始數據相似的新數據。它主要依賴深度學習技術,其中最常見的是生成對抗網路、Transformer模型。 1、生成對抗網絡 (Generative Adversarial Networ
Thumbnail
什麼是生成式AI 生成式學習是生成有結構的複雜物件,包含文句、影像、語音等。通過學習大量的數據,從而可以生成與原始數據相似的新數據。它主要依賴深度學習技術,其中最常見的是生成對抗網路、Transformer模型。 1、生成對抗網絡 (Generative Adversarial Networ
Thumbnail
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
Thumbnail
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News