第二部:《深度學習》13/100 激活函數深入解析 🔧 非線性,才是智慧的來源!

更新於 發佈於 閱讀時間約 6 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

13/100 第二週:多層感知器 MLP

13.激活函數深入解析 🔧 非線性,才是智慧的來源!

_____________________________________

✅ 核心概念:

神經網路之所以強大,是因為它不只是加總數字,而是能學會非線性的抽象規律。這一切都要感謝一個關鍵元素:激活函數(Activation Function)!

📌 沒有激活函數 → 所有神經網路層層疊起來也只是線性模型

📌 有了激活函數 → 神經網路才能模擬複雜現象、學習人類語言、辨識貓狗圖片、甚至寫詩作畫!

________________________________________

🔍 為何要加入非線性?

假設每層只執行 Wx + b,那麼:

即使堆 100 層,整體仍然只是「一個線性轉換」

無法逼近現實世界的非線性邏輯(如 XOR、語音辨識、影像識別)

➡️ 加入激活函數後,模型才能突破「線性世界」,走向智慧。

________________________________________

🧠 常見激活函數總覽:

激活函數是神經網路中關鍵的非線性轉換元件,負責讓模型具備學習複雜特徵的能力。常見函數包括:

Sigmoid:輸出範圍在0到1之間,適合應用於二分類的輸出層,但在深層網路中容易造成梯度消失。

Tanh:輸出介於-1到1之間,屬於中心對稱函數,早期常用於隱藏層,表現通常優於 Sigmoid。

ReLU(Rectified Linear Unit):當前最常見的隱藏層激活函數,簡單、高效,能有效加快收斂速度,缺點是可能產生「死神經元」。

Leaky ReLU:針對 ReLU 死神經元問題進行改良,允許輸入為負時保留微小斜率,適用於深層或需更細緻調整的模型。

Softmax:將輸出轉為機率分布,常用於多分類任務的輸出層,能將所有輸出歸一化為總和為1的機率值。

整體來說,激活函數的選擇會依任務類型與模型架構而異,正確選擇對模型效能有關鍵影響。

________________________________________

🔬 ReLU:現代神經網路的標配

Rectified Linear Unit(ReLU) 是目前主流的激活函數,簡單卻威力強大:


python


def relu(x):

return max(0, x)


✅ 優點:

非常快,計算效率高

避免 Sigmoid 的梯度消失問題

收斂速度快 → 訓練時間變短


⚠️ 缺點:

輸入為負時梯度為 0 → 可能造成「死亡神經元」


➡️ 可用 Leaky ReLU 改進(讓負值部分保持微弱梯度)

________________________________________

🧪 實作示意(TensorFlow):


python


model = tf.keras.Sequential([

tf.keras.layers.Dense(128, activation='relu'),

tf.keras.layers.Dense(10, activation='softmax')

])

這段程式碼建立了一個簡單的前饋神經網路模型(多層感知器)。第一層為 128 個神經元的全連接層,使用 ReLU 激活函數負責提取特徵;第二層為輸出層,有 10 個神經元並使用 softmax 激活函數,將輸出轉為機率分布,適用於 10 類分類問題(如手寫數字辨識)。

________________________________________

📊 不同激活函數圖形行為對比:

函數 非線性? 是否常用? 注意事項

ReLU ✅✅✅ 可能會有神經元失活

Sigmoid 容易梯度消失

Tanh 可用但已被 ReLU 取代

Softmax 只用於輸出層

________________________________________

🧩 圖解(結構層示意):


[輸入層] → [Linear: W·x + b] → [Activation: ReLU] → [下一層]

↑↑↑

非線性決定模型智慧的起點

________________________________________

🎯 小結與啟示:

✅ 激活函數 = 神經網路的大腦皮質,能讓模型思考更複雜的邏輯

✅ 若沒有激活函數,所有網路只是「線性疊加」

✅ ReLU 是目前主流選擇,簡單又高效

✅ 選對激活函數,等於給模型正確的「思考能力」



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
8會員
119內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/08/29
隱藏層讓神經網路能學習資料中的抽象特徵與非線性關係。若只有輸入與輸出層,模型僅能學習簡單的線性對應,難以處理複雜問題。加入隱藏層後,模型能逐層提取更深層的模式與結構,是深度學習成功的關鍵。隱藏層越多,模型表達力越強,但也需注意過擬合風險。
2025/08/29
隱藏層讓神經網路能學習資料中的抽象特徵與非線性關係。若只有輸入與輸出層,模型僅能學習簡單的線性對應,難以處理複雜問題。加入隱藏層後,模型能逐層提取更深層的模式與結構,是深度學習成功的關鍵。隱藏層越多,模型表達力越強,但也需注意過擬合風險。
2025/08/29
多層感知器(MLP)是最基本的前饋神經網路,由輸入層、隱藏層與輸出層組成,並透過多層全連接層逐步提取特徵。每層節點與前一層所有節點相連,常搭配非線性激活函數如 ReLU,使模型具備學習複雜關係的能力。MLP 是深度學習的基礎結構之一,廣泛應用於分類與回歸任務中。
2025/08/29
多層感知器(MLP)是最基本的前饋神經網路,由輸入層、隱藏層與輸出層組成,並透過多層全連接層逐步提取特徵。每層節點與前一層所有節點相連,常搭配非線性激活函數如 ReLU,使模型具備學習複雜關係的能力。MLP 是深度學習的基礎結構之一,廣泛應用於分類與回歸任務中。
2025/08/29
AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》 10/100 第一週:深度學習基礎入門 10.小結與測驗:手寫數字分類(MNIST)🖊 用 TensorFlow 練習第一個深度模型! __________________________________
2025/08/29
AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》 10/100 第一週:深度學習基礎入門 10.小結與測驗:手寫數字分類(MNIST)🖊 用 TensorFlow 練習第一個深度模型! __________________________________
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
Thumbnail
感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
Thumbnail
感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News