LLM攻擊與防禦

更新於 2024/12/08閱讀時間約 5 分鐘

大型語言模型攻擊

最近各組織正急於整合大型語言模型(LLMs)以改善其線上用戶體驗。這使它們面臨網路LLM攻擊的風險,這些攻擊利用模型對攻擊者無法直接存取的資料、API或使用者資訊的存取權。例如:


  1. 擷取LLM可存取的資料。這類資料的常見來源包括LLM的提示、訓練集和提供給模型的API。
  2. 透過API觸發有害行為。例如,攻擊者可能利用LLM對其可存取的API執行SQL注入攻擊。
  3. 對查詢LLM的其他使用者和系統觸發攻擊。


從高層次來看,攻擊LLM整合通常類似於利用伺服器端請求偽造(Server-side Request Forgery, SSRF)漏洞。在這兩種情況下,攻擊者都在濫用伺服器端系統來對無法直接存取的獨立元件發動攻擊。


LLM攻擊和提示注入

許多網路LLM攻擊依賴一種稱為提示注入的技術。這是指攻擊者使用精心設計的提示來操縱LLM的輸出。提示注入可能導致AI執行超出其預期目的的行為,例如對敏感API進行錯誤呼叫或返回不符合其指導方針的內容。


檢測LLM漏洞

我們建議的檢測LLM漏洞方法是:識別LLM的輸入,包括直接(如提示)和間接(如訓練資料)輸入。

  1. 找出LLM可存取的資料和API。
  2. 探測這個新的攻擊面以尋找漏洞。
  3. 利用LLM API、功能和外掛程式


LLM通常由專門的第三方供應商託管。網站可以透過描述本地API供LLM使用,來讓第三方LLM存取其特定功能。例如,用戶支援LLM可能有權存取管理使用者、訂單和庫存的API。LLM API的運作方式


將LLM與API整合的工作流程取決於API本身的結構。在呼叫外部API時,某些LLM可能要求用戶端呼叫單獨的功能端點(實際上是私有API)以生成可發送到這些API的有效請求。這種工作流程可能如下所示:用戶端以使用者的提示呼叫LLM。


LLM檢測到需要呼叫功能,並返回一個包含符合外部API架構的參數的JSON物件。


  1. 用戶端以提供的參數呼叫功能。
  2. 用戶端處理功能的回應。
  3. 用戶端再次呼叫LLM,將功能回應附加為新訊息。
  4. LLM以功能回應呼叫外部API。
  5. LLM將此API呼叫的結果摘要回傳給使用者。


這個工作流程可能有安全隱憂,因為LLM實際上是代表使用者呼叫外部API,但使用者可能不知道這些API正在被呼叫。理想情況下,應該在LLM呼叫外部API之前向使用者提供確認步驟。映射LLM API攻擊面


「過度代理」一詞指的是LLM可存取能夠存取敏感資訊的API,並且可被說服不安全地使用這些API的情況。這使攻擊者能夠將LLM推至超出其預期範圍,並透過其API發動攻擊。使用LLM攻擊API和外掛程式的第一階段是找出LLM可存取哪些API和外掛程式。一種方法是直接詢問LLM它可以存取哪些API。然後,使用者可以詢問任何感興趣的API的其他詳細資訊。如果LLM不配合,可以嘗試提供誤導性的背景並重新提問。例如,使用者可以聲稱自己是LLM的開發者,因此應該有更高的權限。


防禦LLM攻擊


為防止許多常見的LLM漏洞,在部署與LLM整合的應用程式時,請採取以下步驟。

  1. 將提供給LLM的API視為公開可存取

由於使用者可以透過LLM有效地呼叫API,開發者應該將LLM可存取的任何API視為公開可存取。實際上,這意味著開發者應該執行基本的API存取控制,例如始終要求驗證才能進行呼叫。此外,開發者應確保任何存取控制都由LLM通訊的應用程式處理,而不是期望模型自我約束。這特別有助於減少間接提示注入攻擊的可能性,這些攻擊與權限問題密切相關,並且可以通過適當的權限控制在一定程度上得到緩解。不要向LLM提供敏感資料


在可能的情況下,開發者應避免對其整合的LLM提供敏感資料。開發者可以採取幾個步驟來避免無意中向LLM提供敏感資訊:

  1. 對模型的訓練資料集應用強大的淨化技術。
  • 只向模型提供最低權限使用者可能存取的資料。這很重要,因為模型消耗的任何資料都可能被揭露給使用者,特別是在微調資料的情況下。
  • 限制模型對外部資料來源的存取,並確保在整個資料供應鏈中應用強大的存取控制。
  • 定期測試模型
avatar-img
0會員
31內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
風清揚的沙龍 的其他內容
協調型同時定位與建構地圖(C-SLAM)是在室內、地下、水中等無外部定位系統的環境中,多機器人協同運作的必須要素。傳統的C-SLAM系統可分為集中型和分散型兩類。集中型系統將所有機器人的地圖資料集中到遠端基地站,計算全域SLAM估計。
近年來,從自動駕駛(Automated Driving, AD)/先進駕駛輔助系統( Advanced Driver Assistance Systems, ADAS)開始,車輛不斷添加新功能,電子控制單元(Electronic Control Unit, ECU)的數量也隨之增加。
直覺來說注意力機制是我們如何對圖像的不同區域進行視覺關注或如何關聯句子中的詞語。人類的視覺注意力允許我們以「高解析度」聚焦於特定區域(例如,看黃色框中的尖耳朵),同時以「低解析度」感知周圍的圖像(例如,現在雪地背景和服裝如何?),然後相應地調整焦點或進行推理。
近年來,人工智慧(AI)領域有許多讓人興奮的新研究。AlphaGo擊敗了圍棋界最頂尖的職業選手。不久之後,其衍生演算法AlphaGo Zero在沒有人類知識監督學習的情況下以100-0的比分擊敗了AlphaGo。在DOTA2的1v1比賽中,頂級職業玩家輸給了OpenAI開發的機器人。
在利用深度學習的生成模型中,生成對抗網路 (Generative Adversarial Network, GAN)是研究應用方法最多的一種,許多人可能知道它是「讓兩個網路相互競爭來學習」的架構。
本文介紹的論文是IBM和摩根大通的聯合研究論文《Quantum Generative Adversarial Networks for Learning and Loading Random Distributions》,該論文使用量子機器學習來以少量閘重現任意機率分佈。
協調型同時定位與建構地圖(C-SLAM)是在室內、地下、水中等無外部定位系統的環境中,多機器人協同運作的必須要素。傳統的C-SLAM系統可分為集中型和分散型兩類。集中型系統將所有機器人的地圖資料集中到遠端基地站,計算全域SLAM估計。
近年來,從自動駕駛(Automated Driving, AD)/先進駕駛輔助系統( Advanced Driver Assistance Systems, ADAS)開始,車輛不斷添加新功能,電子控制單元(Electronic Control Unit, ECU)的數量也隨之增加。
直覺來說注意力機制是我們如何對圖像的不同區域進行視覺關注或如何關聯句子中的詞語。人類的視覺注意力允許我們以「高解析度」聚焦於特定區域(例如,看黃色框中的尖耳朵),同時以「低解析度」感知周圍的圖像(例如,現在雪地背景和服裝如何?),然後相應地調整焦點或進行推理。
近年來,人工智慧(AI)領域有許多讓人興奮的新研究。AlphaGo擊敗了圍棋界最頂尖的職業選手。不久之後,其衍生演算法AlphaGo Zero在沒有人類知識監督學習的情況下以100-0的比分擊敗了AlphaGo。在DOTA2的1v1比賽中,頂級職業玩家輸給了OpenAI開發的機器人。
在利用深度學習的生成模型中,生成對抗網路 (Generative Adversarial Network, GAN)是研究應用方法最多的一種,許多人可能知道它是「讓兩個網路相互競爭來學習」的架構。
本文介紹的論文是IBM和摩根大通的聯合研究論文《Quantum Generative Adversarial Networks for Learning and Loading Random Distributions》,該論文使用量子機器學習來以少量閘重現任意機率分佈。
你可能也想看
Google News 追蹤
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
在數位化日益深入的今天,駭客網路攻擊成為了各種組織和個人面臨的嚴重挑戰。本文將探討駭客網路攻擊的種類、影響及其防範策略,幫助讀者更好地理解和應對這一重要的安全問題。 什麼是駭客網路攻擊? 駭客網路攻擊是指未經授權的個人或組織通過技術手段,針對計算機系統、網路基礎設施或數據進行的攻擊行為。攻擊者可
在現今數位時代,網路安全已成為企業和個人必須面對的首要挑戰。隨著網路犯罪活動的日益猖獗,如何有效地保護敏感資訊並確保網絡環境的安全,成為每個組織和個人不可忽視的重要課題。本文將帶你了解如何利用先進的監控軟體來提升資訊安全,為您提供全面的解決方案。
描述我所瞭解的 Web 攻擊技術 何謂網路攻擊? 駭客透過各種系統漏洞或惡意程式,搭配許多技術和工具進行攻擊。目標是要在企業或個人電腦網路中損害、取得控制權或存取重要的文件和系統。 例如: XSS(Cross-Site Scripting,跨站腳本攻擊/跨網站指令碼):指網路罪犯透過存在安全
Thumbnail
隨着網絡攻擊和資料外洩的種類越來越多,防御方案的部署也要與時並進。近年,很多企業開始留意和測試部署使用者和實體行為分析(UEBA)的可行性。 在資訊保安工作上,內部人員被駭或者內部人員出現錯誤的行為導致企業暴露於風險之中......
Thumbnail
大數據時代下,Log的多元應用至關重要。Log生成龐大,格式各異,特別金融業需合規。探討Log廣泛應用、資訊安全、IT管理和商業決策。建立Log管理系統核心深入法規,強化IT治理、權限控管。一站式Log管理平台,確保資訊安全合規。
Thumbnail
談了許多網路安全的議題,提醒民眾要注意哪些事情,建構哪些網路安全思維,讓我們可以降低踏入詐騙陷阱的風險。但除了民眾本身要不斷學習、提升防詐意識外,是不是還有其他方面的作法呢? 本文就來聊聊在企業端可以做些什麼。 要打造一個密不可破的防護網,企業端就不能夠缺席。 舉幾個例子讓大家知道。
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
在數位化日益深入的今天,駭客網路攻擊成為了各種組織和個人面臨的嚴重挑戰。本文將探討駭客網路攻擊的種類、影響及其防範策略,幫助讀者更好地理解和應對這一重要的安全問題。 什麼是駭客網路攻擊? 駭客網路攻擊是指未經授權的個人或組織通過技術手段,針對計算機系統、網路基礎設施或數據進行的攻擊行為。攻擊者可
在現今數位時代,網路安全已成為企業和個人必須面對的首要挑戰。隨著網路犯罪活動的日益猖獗,如何有效地保護敏感資訊並確保網絡環境的安全,成為每個組織和個人不可忽視的重要課題。本文將帶你了解如何利用先進的監控軟體來提升資訊安全,為您提供全面的解決方案。
描述我所瞭解的 Web 攻擊技術 何謂網路攻擊? 駭客透過各種系統漏洞或惡意程式,搭配許多技術和工具進行攻擊。目標是要在企業或個人電腦網路中損害、取得控制權或存取重要的文件和系統。 例如: XSS(Cross-Site Scripting,跨站腳本攻擊/跨網站指令碼):指網路罪犯透過存在安全
Thumbnail
隨着網絡攻擊和資料外洩的種類越來越多,防御方案的部署也要與時並進。近年,很多企業開始留意和測試部署使用者和實體行為分析(UEBA)的可行性。 在資訊保安工作上,內部人員被駭或者內部人員出現錯誤的行為導致企業暴露於風險之中......
Thumbnail
大數據時代下,Log的多元應用至關重要。Log生成龐大,格式各異,特別金融業需合規。探討Log廣泛應用、資訊安全、IT管理和商業決策。建立Log管理系統核心深入法規,強化IT治理、權限控管。一站式Log管理平台,確保資訊安全合規。
Thumbnail
談了許多網路安全的議題,提醒民眾要注意哪些事情,建構哪些網路安全思維,讓我們可以降低踏入詐騙陷阱的風險。但除了民眾本身要不斷學習、提升防詐意識外,是不是還有其他方面的作法呢? 本文就來聊聊在企業端可以做些什麼。 要打造一個密不可破的防護網,企業端就不能夠缺席。 舉幾個例子讓大家知道。