Adversarial Attack(對抗性攻擊)是在機器學習中,攻擊者故意設計微小但精心修改的輸入(稱為對抗樣本),使模型產生錯誤判斷或錯誤預測的一種攻擊手法。這些微小的改動對人類觀察者來說幾乎無異,但能有效迷惑AI模型。
Adversarial Attack的定義和工作原理
• 攻擊者透過了解目標模型的結構和輸入方式,生成能干擾模型判斷的對抗樣本。• 常見於圖像識別、語音識別、自然語言處理等領域。
• 攻擊目標是讓模型做出錯誤決策,如錯誤分類、繞過檢測、錯判安全信號等。
主要攻擊類型:
• 逃逸攻擊(Evasion Attack):在模型部署階段,修改輸入來誤導模型。
• 數據中毒攻擊(Poisoning Attack):在訓練資料中注入有害數據,損害模型準確度。
• 模型竊取攻擊(Model Stealing):通過查詢模型獲取信息,仿製模型。
攻擊方法特色:
• 利用對模型輸入空間敏感性,添加最小的干擾。
• 生成對抗樣本技術包括快速梯度符號法(FGSM)、投影梯度下降(PGD)、Carlini-Wagner攻擊等。
• 可分為黑盒攻擊(不了解模型內部)和白盒攻擊(了解模型內部結構)。
防禦策略:
• 對抗性訓練(在訓練加對抗樣本)。
• 輸入數據檢測和淨化。
• 模型結構改進和隨機化技術。
簡單比喻:
Adversarial Attack就像在圖片裡偷偷畫上幾根極細的線條,人眼看不出來,但AI卻會誤認圖片內容。
總結:
Adversarial Attack是一種針對機器學習模型輸入的精密攻擊方法,通過微小干擾使模型產生錯誤判斷,對AI系統安全帶來嚴峻挑戰,需結合多種技術策略加以防範。