
在 AI 的圖像辨識與推薦系統 中,討論AI 如何透過卷積神經網路辨識圖像,再利用推薦系統推測你的偏好。但在這一層層運算之下,有一個更基礎卻關鍵的數學角色:激活函數(activation function)。
沒有它,神經網路就只是把輸入乘以權重、再做加總,最後得到一條直線。這樣的模型,無法真正理解現實世界的複雜性。激活函數的出現,讓機器有了非線性(non-linearity),也就是能處理曲折、不規則的關係。這正是深度學習能夠超越傳統統計方法的關鍵。
然而,當 AI 具備這種靈活性之後,它做出的判斷也可能把數據中的隱藏偏見放大。從招聘到貸款,從醫療到司法,問題已經不只是算得快不快,而是算得公不公平。激活函數 與 非線性
在神經網路中,每個神經元都要決定「要不要啟動」。這個判斷,就仰賴激活函數。它不只是開關,而是數學曲線,決定了訊號如何轉換。
最早期常用的是 Sigmoid 函數。它會把所有輸入壓縮到 0 到 1 之間,輸出看起來像一條平滑的 S 型曲線。如果一個模型輸出 0.87,我們就能直觀地解讀成「這是正樣本的機率有 87%」。這使得 Sigmoid 很適合應用在二分類問題的最後一層。但它的缺點是,在輸入極大或極小時,曲線變得幾乎平坦,導數趨近於 0,會造成所謂的「梯度消失」(vanishing gradient),導致學習停滯。
為了改善這個問題,後來出現了 Tanh 函數。它的形狀同樣是 S 型,但輸出範圍從 -1 到 1。這意味著它是「零中心」的,比 Sigmoid 更適合用在隱藏層,能讓梯度更新不會總是偏向正區域。不過,當輸入值過於極端時,Tanh 也依舊會面臨梯度消失的困境。
現代深度學習的主流則是 ReLU(Rectified Linear Unit)。它的定義極為簡單:輸入小於零時輸出 0,大於零時就原樣輸出。這種設計不僅計算快速,也能有效減少梯度消失的問題,讓訓練收斂速度大幅提升。ReLU 幾乎成了卷積神經網路和各種深度模型的標準搭配。不過,它也有一個缺陷:當輸入長期落在負值區域,神經元就「死掉」,再也不會被激活。
這些不同的激活函數,其實就像不同的數學透鏡。Sigmoid 帶來了機率直觀,Tanh 提供了零中心的平衡,而 ReLU 則以高效率支撐起現代 AI 的爆發。它們共同的意義,就是把線性世界轉換為非線性,讓 AI 能夠看懂更複雜的數據結構。
演算法偏見 與 公平性
非線性賦予了 AI 強大的靈活性,但也讓偏見更容易被放大。這就是演算法偏見(algorithmic bias)。
偏見通常不是 AI 自己發明的,而是數據的映射。例如,一家公司如果長期錄用的工程師大多是男性,那麼過去十年的履歷紀錄就帶著男性優勢的印記。AI 在學習這些資料時,即便沒有明確的性別欄位,也可能透過詞彙、經歷間接捕捉到這種關聯。再經過激活函數的層層放大,最終結果就是:模型更傾向於認為男性更適合被錄取。
這種現象凸顯了公平性(fairness)的挑戰。技術社群對於公平有不同定義:有的認為應該讓不同群體的錄取率一致(demographic parity),有的則強調不同群體在正確率與錯誤率上要一致(equalized odds),還有人主張,如果只改變一個人的性別或種族,AI 的判斷應該不變(counterfactual fairness)。
但問題是,這些公平標準往往互相矛盾。若強調錄取率一致,可能犧牲準確率;若追求錯誤率一致,又可能在某些族群中不公平。這意味著,公平並不是單純的數學公式,而是一種需要社會共識的選擇。
因此,當我們談激活函數時,不能只停留在數學的優雅,更要看到它如何在現實中放大偏見,並迫使我們重新思考:技術與倫理該如何並行。
激活函數給了 AI 非線性的靈活性,這是深度學習真正的核心。但當這份靈活進入社會決策時,它不僅計算機率,也可能放大歷史的歧視。
如果要你在效率與公平之間選擇,你會更希望 AI 偏向哪一邊?或是說,能不能設計出一個新的函數,既保留非線性的力量,又自動修正偏見?