ReLU (Rectified Linear Unit)

更新於 發佈於 閱讀時間約 4 分鐘

「ReLU (Rectified Linear Unit)」是一種非常常見且廣泛應用於人工神經網路(包括卷積神經網路)中的激活函數

你可以將激活函數想像成神經元中的一個開關,它決定了神經元的輸出應該是什麼。ReLU 函數尤其簡單且有效。

ReLU 的數學定義:

ReLU 函數的數學表達式非常簡單:

f(x) = max(0, x)

這意味著:

  • 如果輸入 (x) 大於 0,則函數輸出 (x) 本身。
  • 如果輸入 (x) 小於或等於 0,則函數輸出 0。

ReLU 的作用:

  • 引入非線性 (Non-linearity): 在神經網路中,激活函數的主要作用是引入非線性。如果網路中只有線性運算,那麼無論網路有多深,它能學習到的也只是線性關係。ReLU 函數的非線性特性使得神經網路能夠學習和表示非常複雜的非線性模式,這對於處理現實世界中的複雜數據(例如圖像、文本)至關重要。
  • 提高訓練效率 (Computational Efficiency): 相較於一些其他的非線性激活函數(例如 Sigmoid 和 Tanh),ReLU 的計算非常簡單,只需要進行一個比較操作和一個取最大值操作,這使得網路的訓練速度更快。
  • 緩解梯度消失問題 (Alleviates the Vanishing Gradient Problem): 在深度神經網路中,當梯度在反向傳播過程中經過多層時,可能會變得非常小,導致底層的網路層難以學習。ReLU 函數在正數區域的梯度始終為 1,這有助於緩解梯度消失的問題,使得可以訓練更深的網路。

ReLU 的優點:

  • 簡單高效: 計算成本低,易於實現。
  • 加速收斂: 通常能使模型更快地收斂。
  • 減少梯度消失: 在正數區域保持梯度流動。
  • 引入稀疏性 (Induces Sparsity): 因為當輸入小於等於 0 時,輸出為 0,這可以使得一部分神經元的輸出為零,從而引入稀疏性,有助於模型學習更具代表性的特徵並減少過擬合的風險。

ReLU 的缺點(The "Dying ReLU" Problem):

  • 梯度消失於負數區域: 當輸入 (x) 小於 0 時,ReLU 的梯度為 0。如果一個神經元在訓練過程中,其輸入一直小於 0,那麼它的權重將不會得到更新,這個神經元就會「死亡」,不再對模型的學習產生貢獻。這個問題在訓練深層網路時可能會出現。

ReLU 的變體:

為了解決 "Dying ReLU" 問題,研究者提出了一些 ReLU 的變體,例如:

  • Leaky ReLU: 對於負數輸入,Leaky ReLU 會給予一個很小的正斜率(例如 0.01),而不是直接輸出 0。
  • Parametric ReLU (PReLU): 與 Leaky ReLU 類似,但 (alpha) 是一個可以學習的參數,而不是固定的。
  • ELU (Exponential Linear Unit): 對於負數輸入,ELU 使用一個指數函數。
  • SELU (Scaled Exponential Linear Unit): 是 ELU 的一個變體,具有自歸一化的特性。

總之,ReLU 是一種簡單但非常有效的激活函數,是現代深度學習模型中最常用的激活函數之一。雖然存在一些缺點,但通過其變體和其他技巧,ReLU 仍然是許多任務的首選。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
1會員
149內容數
現職 : 富邦建設資訊副理 經濟部 iPAS AI應用規劃師
2025/05/26
「全連接層 (Fully Connected Layer)」是傳統神經網路和卷積神經網路 (CNN) 中常見的一種層類型。在全連接層中,每個神經元都與前一層的所有神經元相連接。 你可以將全連接層想像成一個將前面提取到的所有特徵信息「匯總」起來,並進行最終的分類或預測的階段。 全連接層的工作原理:
2025/05/26
「全連接層 (Fully Connected Layer)」是傳統神經網路和卷積神經網路 (CNN) 中常見的一種層類型。在全連接層中,每個神經元都與前一層的所有神經元相連接。 你可以將全連接層想像成一個將前面提取到的所有特徵信息「匯總」起來,並進行最終的分類或預測的階段。 全連接層的工作原理:
2025/05/26
「池化層 (Pooling Layer)」是卷積神經網路 (CNN) 中一個重要的組成部分,通常會放在一個或多個卷積層之後。池化層的主要作用是減小特徵圖的空間尺寸(寬度和高度),同時保留重要的特徵信息。 你可以將池化層想像成對卷積層輸出的特徵圖進行「濃縮」或「概括」,從而降低數據的複雜性。 池化
2025/05/26
「池化層 (Pooling Layer)」是卷積神經網路 (CNN) 中一個重要的組成部分,通常會放在一個或多個卷積層之後。池化層的主要作用是減小特徵圖的空間尺寸(寬度和高度),同時保留重要的特徵信息。 你可以將池化層想像成對卷積層輸出的特徵圖進行「濃縮」或「概括」,從而降低數據的複雜性。 池化
2025/05/26
「卷積層 (Convolutional Layer)」是卷積神經網路 (CNN) 中最核心的組成部分,它負責從輸入圖像中提取各種視覺特徵。 卷積層的主要功能: 特徵提取 (Feature Extraction): 通過使用一系列可學習的濾波器(或稱為卷積核),卷積層能夠自動地從輸入圖像中提取出有
2025/05/26
「卷積層 (Convolutional Layer)」是卷積神經網路 (CNN) 中最核心的組成部分,它負責從輸入圖像中提取各種視覺特徵。 卷積層的主要功能: 特徵提取 (Feature Extraction): 通過使用一系列可學習的濾波器(或稱為卷積核),卷積層能夠自動地從輸入圖像中提取出有
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
當你邊吃粽子邊看龍舟競賽直播的時候,可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢? 本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章,你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!
Thumbnail
當你邊吃粽子邊看龍舟競賽直播的時候,可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢? 本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章,你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!
Thumbnail
1.0 從函數到函算語法 1.1 句子成份 1.2 函數概念小史 1.3 弗雷格的函數概念 七 「概念」很可能是歐洲哲學史中最常用的其中一個語詞,就好像數學工作者的「數」,但概念總是作為一種心智建構提出或使用,對弗雷格要創建的新邏輯 —— 即以客存事物為對象的新邏輯 —— 來說,它可以
Thumbnail
1.0 從函數到函算語法 1.1 句子成份 1.2 函數概念小史 1.3 弗雷格的函數概念 七 「概念」很可能是歐洲哲學史中最常用的其中一個語詞,就好像數學工作者的「數」,但概念總是作為一種心智建構提出或使用,對弗雷格要創建的新邏輯 —— 即以客存事物為對象的新邏輯 —— 來說,它可以
Thumbnail
1.0 從函數到函算語法 1.3 弗雷格的函數概念 二 公元1891年,弗雷格給〈耶拿大學醫學及自然科學協會〉(Jenaische Gesellschaft für Medizin und Naturwissenschaft) 做了個演講,講題為〈函數與概念〉(Funktion und B
Thumbnail
1.0 從函數到函算語法 1.3 弗雷格的函數概念 二 公元1891年,弗雷格給〈耶拿大學醫學及自然科學協會〉(Jenaische Gesellschaft für Medizin und Naturwissenschaft) 做了個演講,講題為〈函數與概念〉(Funktion und B
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 1.2.7 十九世紀的尾聲 三 必須說一下波希米亞數學家/邏輯學家/哲學家/神學
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 1.2.7 十九世紀的尾聲 三 必須說一下波希米亞數學家/邏輯學家/哲學家/神學
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 1.2.7 十九世紀的尾聲 一 函數概念的發展不可能終結,踏入公元廿一世紀,數學
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 1.2.7 十九世紀的尾聲 一 函數概念的發展不可能終結,踏入公元廿一世紀,數學
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5弦的振動 1.2.6熱的傳導 二 傅立葉認為他的結果對任一函數皆有效,並將函數定義為 (FF) 在一般情況下,函數
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5弦的振動 1.2.6熱的傳導 二 傅立葉認為他的結果對任一函數皆有效,並將函數定義為 (FF) 在一般情況下,函數
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 一 偏微分方程始於公元十八世紀,在十九世紀茁長壯大。 隨著物理科學擴展越深 (理
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 一 偏微分方程始於公元十八世紀,在十九世紀茁長壯大。 隨著物理科學擴展越深 (理
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5弦的振動  七 雖然論爭沒有得出任何定論,但對函數概念的演化卻影嚮頗深。 在這次歷時多年的論爭中,函數概念得以擴大而包括
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5弦的振動  七 雖然論爭沒有得出任何定論,但對函數概念的演化卻影嚮頗深。 在這次歷時多年的論爭中,函數概念得以擴大而包括
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 二 有了萊布尼茲的命名和貝努利的初步界定,函數關係被正式放在桌面上,毫無遮掩地進入了公元十八世紀歐洲數學工作者
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 二 有了萊布尼茲的命名和貝努利的初步界定,函數關係被正式放在桌面上,毫無遮掩地進入了公元十八世紀歐洲數學工作者
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 四 牛頓的「流數」不久便淡出歷史的舞台,後來的數學工作者選擇了萊布尼茲比較抽象的「函數」。 公元1673年,萊布尼茲在一篇名為〈觸線
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 四 牛頓的「流數」不久便淡出歷史的舞台,後來的數學工作者選擇了萊布尼茲比較抽象的「函數」。 公元1673年,萊布尼茲在一篇名為〈觸線
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News