AI 基礎 6/ 6 | AI 的靈活與倫理

2025/08/29 更新2025/08/29 發佈閱讀 5 分鐘

在 AI 的圖像辨識與推薦系統中，討論AI 如何透過卷積神經網路辨識圖像，再利用推薦系統推測你的偏好。但在這一層層運算之下，有一個更基礎卻關鍵的數學角色：激活函數（activation function）。

沒有它，神經網路就只是把輸入乘以權重、再做加總，最後得到一條直線。這樣的模型，無法真正理解現實世界的複雜性。激活函數的出現，讓機器有了非線性（non-linearity），也就是能處理曲折、不規則的關係。這正是深度學習能夠超越傳統統計方法的關鍵。

然而，當 AI 具備這種靈活性之後，它做出的判斷也可能把數據中的隱藏偏見放大。從招聘到貸款，從醫療到司法，問題已經不只是算得快不快，而是算得公不公平。

激活函數與非線性

不同激活函數與其曲線圖，在不同場景下展現不同能力

在神經網路中，每個神經元都要決定「要不要啟動」。這個判斷，就仰賴激活函數。它不只是開關，而是數學曲線，決定了訊號如何轉換。

最早期常用的是 Sigmoid 函數。它會把所有輸入壓縮到 0 到 1 之間，輸出看起來像一條平滑的 S 型曲線。如果一個模型輸出 0.87，我們就能直觀地解讀成「這是正樣本的機率有 87%」。這使得 Sigmoid 很適合應用在二分類問題的最後一層。但它的缺點是，在輸入極大或極小時，曲線變得幾乎平坦，導數趨近於 0，會造成所謂的「梯度消失」（vanishing gradient），導致學習停滯。

為了改善這個問題，後來出現了 Tanh 函數。它的形狀同樣是 S 型，但輸出範圍從 -1 到 1。這意味著它是「零中心」的，比 Sigmoid 更適合用在隱藏層，能讓梯度更新不會總是偏向正區域。不過，當輸入值過於極端時，Tanh 也依舊會面臨梯度消失的困境。

現代深度學習的主流則是 ReLU（Rectified Linear Unit）。它的定義極為簡單：輸入小於零時輸出 0，大於零時就原樣輸出。這種設計不僅計算快速，也能有效減少梯度消失的問題，讓訓練收斂速度大幅提升。ReLU 幾乎成了卷積神經網路和各種深度模型的標準搭配。不過，它也有一個缺陷：當輸入長期落在負值區域，神經元就「死掉」，再也不會被激活。

這些不同的激活函數，其實就像不同的數學透鏡。Sigmoid 帶來了機率直觀，Tanh 提供了零中心的平衡，而 ReLU 則以高效率支撐起現代 AI 的爆發。它們共同的意義，就是把線性世界轉換為非線性，讓 AI 能夠看懂更複雜的數據結構。

演算法偏見與公平性

AI 模型會呈現出人類的偏見，因為它繼承了開發者與使用者知識中的不足之處。

非線性賦予了 AI 強大的靈活性，但也讓偏見更容易被放大。這就是演算法偏見（algorithmic bias）。

偏見通常不是 AI 自己發明的，而是數據的映射。例如，一家公司如果長期錄用的工程師大多是男性，那麼過去十年的履歷紀錄就帶著男性優勢的印記。AI 在學習這些資料時，即便沒有明確的性別欄位，也可能透過詞彙、經歷間接捕捉到這種關聯。再經過激活函數的層層放大，最終結果就是：模型更傾向於認為男性更適合被錄取。

這種現象凸顯了公平性（fairness）的挑戰。技術社群對於公平有不同定義：有的認為應該讓不同群體的錄取率一致（demographic parity），有的則強調不同群體在正確率與錯誤率上要一致（equalized odds），還有人主張，如果只改變一個人的性別或種族，AI 的判斷應該不變（counterfactual fairness）。

但問題是，這些公平標準往往互相矛盾。若強調錄取率一致，可能犧牲準確率；若追求錯誤率一致，又可能在某些族群中不公平。這意味著，公平並不是單純的數學公式，而是一種需要社會共識的選擇。

因此，當我們談激活函數時，不能只停留在數學的優雅，更要看到它如何在現實中放大偏見，並迫使我們重新思考：技術與倫理該如何並行。

激活函數給了 AI 非線性的靈活性，這是深度學習真正的核心。但當這份靈活進入社會決策時，它不僅計算機率，也可能放大歷史的歧視。

如果要你在效率與公平之間選擇，你會更希望 AI 偏向哪一邊？或是說，能不能設計出一個新的函數，既保留非線性的力量，又自動修正偏見？

留言

留言分享你的想法！

邊喝邊想