對抗性攻擊 (Adversarial Attack) 是指針對機器學習模型(尤其是深度學習模型)的一種攻擊方式。攻擊者通過在輸入資料中加入人類難以察覺的微小擾動,使得模型產生錯誤的輸出,即使原始資料模型可以正確分類。
以下是關於對抗性攻擊的一些關鍵點:
* 目標: 欺騙機器學習模型,使其做出錯誤的預測或分類。* 方法: 通常通過對輸入數據進行微小的修改(擾動),這些修改人眼可能無法察覺,但卻能顯著影響模型的判斷。
* 影響: 對抗性攻擊可能會對許多依賴機器學習的應用造成嚴重的安全風險,例如:
* 圖像辨識: 讓自動駕駛系統錯誤地識別交通標誌,或讓臉部辨識系統無法正確辨識人物。
* 自然語言處理: 使得垃圾郵件過濾器失效,或讓情感分析模型產生錯誤的判斷。
* 語音辨識: 讓語音助理錯誤地理解指令。
* 例子:
* 圖像領域: 在一張貓的圖片上加入一些特定的微小雜訊,模型可能會將其誤判為狗。
* 文字領域: 在一段評論中稍微修改幾個字或加入一些不易察覺的字符,可能會讓情感分析模型將原本正面的評論判斷為負面。
對抗性攻擊的研究旨在理解機器學習模型的脆弱性,並開發更強健的模型來抵抗這些攻擊。這是機器學習安全領域一個非常重要的研究方向。