Prompt Hijacking(或稱為 Prompt Hacking)是一種針對大型語言模型(LLMs)的攻擊手法,透過精心設計的輸入或提示操控(prompt manipulation),使模型執行開發者未預期或不想要的動作。這與傳統軟體漏洞攻擊不同,因為它利用的是模型對輸入提示的敏感性和解讀機制。
具體來說,Prompt Hijacking 透過在輸入提示中插入或隱藏惡意指令,使模型忽略原本的系統指令或安全規範,生成不當內容、洩露內部信息,或進行錯誤操作。它包含幾種常見類型:
• Prompt Injection(提示注入):直接在用戶輸入中加入惡意指令,覆寫或干擾模型原先的行為設定,像是在正常對話中“偷偷”下命令。• Prompt Leaking(提示洩漏):通過誘導模型洩露其內置的隱藏提示、系統指令或敏感資料。
• Jailbreaking(越獄):繞過模型的內容限制或安全過濾,讓模型生成平時禁止的有害或不當內容。
這些攻擊可能帶來重大的安全風險,包括洩露敏感資訊、生成欺騙性或錯誤內容,損害用戶信任及倫理問題。
防範措施包括限制提示注入、監控異常行為、設計堅固的提示結構以及模型微調來加強安全性。
總結:
Prompt Hijacking 是透過巧妙操控語言模型輸入提示來誘使模型繞過安全限制並執行未預期工作的一種攻擊技術,包括提示注入、提示洩漏和越獄三大類型,對模型安全和可信度造成威脅。