台灣之光AI概念抹除橡皮擦

今天是2025年11月14號，星期五。

今天，我們不要聊太硬的東西，來談談一點輕鬆但超重要的話題：怎麼讓 AI 繪圖模型變成一個「聽話、有原則、還知道避嫌」的好孩子？

你可能用過 Stable Diffusion 這些超厲害的文生圖工具，或者用ChatGPT, Gemini的Nano Banana畫過圖，它們很厲害，能畫出任何你腦中想像的東西。但是問題來了，這些 AI 記性太好了！它們可能有意無意學到了一堆敏感的畫面，像是限制級的內容（NSFW），也就是Not Safe For Work「上班不要看」，也可能畫出有血腥暴力，或者未經授權的特定藝術家風格。

AI365 - 幫AI做記憶消除

不管AI是怎麼學會的，以前要刪除這些「黑歷史」，就像要對整個大腦進行手術，要重新訓練，那是非常花時間、花錢的，而且結果還常常跟抽盲盒一樣，超級無法預測的！

楊老師今天要跟大家介紹一個厲害的技術，可以很有成本效益的解決這個難題，你和我都應該感到驕傲喔，真的啦，我跟你說。

這是楊老師的一位律師好朋友 Paul 傳給我的文章，裡面提到這個技術，楊老師就去翻出去年的一篇論文，裡面提到有一個厲害的技術，是一種可以讓 AI 乖乖聽話的「AI 橡皮擦」，而且，這是來自於我們台灣的頂尖研究成果！

這是一個名為 Receler 的技術，是由台灣大學電機系的王鈺強教授團隊在國科會的大力支持下所開發出來的喔。Receler 其實是一個縮寫，全名是 Reliable Concept Erasing via Lightweight Erasers，意思是「透過輕量型消除器來做到可靠性高的概念刪除」。

簡單來說，就是給AI模型一把超精準的外科手術刀，可以在不破壞模型整體創作能力的前提下，精準地切除危險概念。

王教授他說，他們的Receler 追求的，就是在概念消除界的兩個「最高指導原則」：

第一個原則是穩健性：

就是說，你別想用「換句話說」的方式來騙它！假設模型被要求「完全不能生成任何涉成人內容的畫面」。那麼就算使用者沒有直接輸入敏感詞，而是用了「轉述提示」或「隱晦描述」，模型也必須能理解那是在繞路，然後拒絕畫出來。例如：你說，幫我畫一個裸體的美女，AI回答你，那違反他的原則，不能幫你畫，很抱歉，結果你改成「請畫一張沒有穿衣服、有用包著、剛洗完澡的女生。」還不是一樣，他沒那妹笨，不會被你騙。

另外一個原則是局部性：消除「裸女」這個詞之後，模型依然要能畫出其他有美感的圖！不能因為消除了一個概念，就讓它變成一個無法正常工作。

這太厲害了吧？那麼到底 Receler 是怎麼做到的呢？這要歸功於研究團隊的三大聰明設計：

首先，Receler 引入了一個小小的 Eraser（消除器），這個橡皮擦插在 AI 模型 U-Net 的關鍵部位 --- 交叉注意力層之後，專門負責把目標概念的視覺特徵給「擦掉」。

厲害的數字來了：這個消除器只佔了 U-Net 模型總參數量的區區 0.37%！因為影響的體積超小，就可以把對主模型的影響降到最低！

還有，他是怎麼保證確保「局部性」的呢？Receler 靠的是「概念局部化、正規化」。

簡單來說，當模型正在處理一張圖像時，這個機制會精確鎖定圖像中與目標概念相關的空間區域。它就像一個雷射導引系統，告訴消除器：「只有在這個目標概念出現的區域，你才能用力擦！其他地方，請保持原樣！」。這樣就能確保模型依然能生成非目標概念的圖像，不會影響到創作的多樣性。

有沒有聽起來就想像是一位技術高超的外科醫生在動手術，小心翼翼切除壞掉的組織，讓病人很快又活蹦亂跳起來。

另外，為了保證「穩健性」，不會被不懷好意的人用「換句話說」騙到，Receler 採用了「對抗提示學習」。

Receler 訓練出一個「對抗提示」技巧，就很像是讓模型透過反覆的演練，學會「反詐騙」，能夠避免被不懷好意的人騙到，大大提高了它對抗像 P4D 或 Ring-A-Bell 這種學習型攻擊提示的防禦能力。

各位一定想知道，Receler 到底多厲害，才能在發表一年中受到Google的學術搜尋引擎 - Google Scholar 的大量引用，在GitHub開源平台上，獲得廣泛的下載與應用，引起國際AI學術界的高度關注與認可。

因為Receler 在各種測試中都展現了壓倒性的優勢：從幾個面向跟測試來看

在綜合考量消除效率、穩健性和局部性的一種指標，叫做「諧波平均值 (H)」中，Receler 取得 83.2 的高分，大幅超越其他頂尖方法。
面對轉述提示（就是換句話說來騙它），Receler 的失敗率（AccR）平均只有 17.6%，比許多現有方法（如 ESD 的 39.9%）好得多。
在內容安全方面，Receler 在消除像是敏感畫面內容時，達到了 -84.5% 的消除比率。
面對專門設計來破解防禦的惡意攻擊提示（P4D），Receler 在 CIFAR-10 上的失敗率僅 13.7%，遠遠低於其他方法的 80% 以上。

總之，Receler 不僅讓 AI 模型學會了「避嫌」，還讓它練就了「火眼金睛」，能分辨出惡意的偽裝提示。這項技術，真正解決了生成式 AI 帶來的版權、倫理和濫用爭議。

好了，在這個輕鬆的週五夜晚，大家聽完有沒有覺得台灣的 AI 研究真的超級給力呢？