第二部:《深度學習》5/100激活函數介紹 🔥 ReLU、Sigmoid、Tanh 決定模型的生命力!

更新 發佈閱讀 6 分鐘

AI時代系列(4) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

5/100 第一週:深度學習基礎入門

5.激活函數介紹 🔥 ReLU、Sigmoid、Tanh 決定模型的生命力!

________________________________________

✅ 核心概念:

神經網路的每一層都會進行「加權總和」的計算,但如果沒有激活函數(Activation Function),整個網路就只是一個線性轉換,無法處理複雜的非線性問題。

📌 激活函數的任務:

為網路引入非線性能力,幫助模型「理解世界的複雜性」。

________________________________________

✅ 為什麼需要激活函數?

沒有激活函數 有激活函數

每層只做線性轉換(Wx + b) 每層可產生非線性效果(ReLU、Tanh)

多層結構等同一層 能建構複雜特徵抽象層

無法表示圖像、語言等非線性模式 可學習邊緣、語意、情感等高階概念

________________________________________

✅ 常見激活函數介紹:

1️⃣ Sigmoid f(x) = 1 / (1 + e^-x)

這個公式會把任何輸入轉換為0 到 1 之間的值,像是「壓縮器」。它會把很大的正數變成接近 1,把很小的負數變成接近 0。

👉 適合當作二分類的輸出層(像是是否為貓)。

2️⃣ Tanh f(x) = (e^x - e^-x) / (e^x + e^-x)

這個函數會把輸入轉換到 -1 到 1 的區間,而且是對稱的,中心在 0。比 Sigmoid 更「平衡」,適合輸出可能為正或負的狀況。

👉 常用在中間層來幫助數據歸一化。

3️⃣ ReLU f(x) = max(0, x) • 計算快,收斂快,解決梯度問題,是現今最主流選擇 • 輸入小於0時輸出為0,可能造成「死亡神經元」問題

如果輸入是正的,就輸出它本身;如果是負的,就輸出 0。簡單快速,讓神經網路學得快,不容易梯度消失。

👉 是目前最常用的激活函數,特別適合隱藏層。

4️⃣ Leaky ReLU f(x) = x if x>0 else αx • 改善 ReLU 死神經元問題 • 引入新超參數α,需要微調

這是 ReLU 的改進版,避免「負值就全變 0」導致神經元死掉的問題。對於負值輸入,也允許一點點輸出(α 是小常數,如 0.01)。

👉 適合在 ReLU 容易出現死神經元時替代使用。

5️⃣ Softmax f(xᵢ) = e^xᵢ / Σe^xⱼ • 適用於多分類輸出層,輸出為機率分布 • 多用於最後一層,不適合中間層

這個函數會把輸出轉換成「每一類的機率」,所有輸出加總為 1。數學上,它會強調最大值,把它「拉出來」。

👉 適用於多分類的輸出層(例如是狗、貓、鳥哪一種)。

✅ 激活函數選擇建議 🎯

使用場景: 建議激活函數

中間隱藏層 ReLU(或 Leaky ReLU)

二分類輸出層 Sigmoid

多分類輸出層 Softmax

輸出需介於 -1 ~ 1 Tanh

________________________________________

✅ ReLU 凌駕主流的原因?

1️⃣ 計算簡單,只需 max(0, x)

2️⃣ 避免 Sigmoid 的梯度消失問題

3️⃣ 使模型更快收斂,尤其適合深層網路

4️⃣ 搭配 Batch Normalization 表現更穩定

________________________________________

✅ 實作小提示(以 PyTorch 為例):

python

import torch.nn as nn

# 常見用法:

model = nn.Sequential(

nn.Linear(128, 64),

nn.ReLU(), # 中間層激活

nn.Linear(64, 10),

nn.Softmax(dim=1) # 輸出層激活(多分類)

)

這段程式碼使用 PyTorch 建立了一個簡單的順序神經網路模型(Sequential Model),主要用於處理多分類任務。輸入為 128 維的特徵向量,首先經過一個輸出為 64 維的全連接層(Linear Layer),再經過 ReLU 激活函數引入非線性,接著通過第二個全連接層將特徵壓縮為 10 維,最後使用 Softmax 函數將輸出轉換為機率分布,代表對 10 個類別的預測結果。這是一個典型的前饋神經網路架構,適合應用在如手寫數字識別、圖像分類等標準多類別問題上。

________________________________________

✅ 小結與啟示 💡

✅ 激活函數 = 模型生命力的來源

✅ ReLU 是深度學習的標配利器,效率與效果兼顧

✅ 選錯激活函數,模型可能「學不到東西」!

✅ 真正的智慧模型,來自適當的激活 + 合理的結構設計

📌 一句話總結:

激活函數的數學公式決定了每個神經元「如何對輸入做出反應」,從而賦予神經網路學習非線性模式的能力。


留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
16會員
388內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/07/11
深度學習的核心學習機制由前向傳播與反向傳播構成:前向傳播將輸入資料經加權與激活函數處理,產生預測結果;反向傳播則根據預測與真實值的誤差,計算損失對權重與偏差的梯度,並透過梯度下降法進行調整,讓模型不斷優化。此過程持續迭代,誤差越小,預測越準。
2025/07/11
深度學習的核心學習機制由前向傳播與反向傳播構成:前向傳播將輸入資料經加權與激活函數處理,產生預測結果;反向傳播則根據預測與真實值的誤差,計算損失對權重與偏差的梯度,並透過梯度下降法進行調整,讓模型不斷優化。此過程持續迭代,誤差越小,預測越準。
2025/07/11
感知機是神經網路的最基礎單元,模擬單一生物神經元的運作,由輸入、權重、偏差與激活函數組成。它可處理線性分類問題,是現代多層感知機(MLP)與深度學習架構的核心基礎。透過多層結構與非線性激活函數(如 ReLU、Sigmoid),神經網路能學習複雜關係並解決非線性問題。
2025/07/11
感知機是神經網路的最基礎單元,模擬單一生物神經元的運作,由輸入、權重、偏差與激活函數組成。它可處理線性分類問題,是現代多層感知機(MLP)與深度學習架構的核心基礎。透過多層結構與非線性激活函數(如 ReLU、Sigmoid),神經網路能學習複雜關係並解決非線性問題。
2025/07/11
深度學習與傳統機器學習最大的差異在於是否需人工進行特徵工程。傳統方法如決策樹、SVM 依賴專家手動設計特徵,適端到端學習與表徵抽象能力,是當代 AI 革命的核心。
2025/07/11
深度學習與傳統機器學習最大的差異在於是否需人工進行特徵工程。傳統方法如決策樹、SVM 依賴專家手動設計特徵,適端到端學習與表徵抽象能力,是當代 AI 革命的核心。
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡(GNN),並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化,包括引入批量標準化和獨立的消息傳遞層,調整Dropout和聚合函數,顯著提高了模型的分類準確率。實驗結果表明,經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。
Thumbnail
本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡(GNN),並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化,包括引入批量標準化和獨立的消息傳遞層,調整Dropout和聚合函數,顯著提高了模型的分類準確率。實驗結果表明,經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。
Thumbnail
呈上篇介紹如何訓練模型,此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇 生成的結果 生成的圖片大小會根據,當初設置的生成器輸出大小來決定,當你使用生成對抗網絡(GAN)生成圖像時,生成器模型的最後一層通常會決定生成圖
Thumbnail
呈上篇介紹如何訓練模型,此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇 生成的結果 生成的圖片大小會根據,當初設置的生成器輸出大小來決定,當你使用生成對抗網絡(GAN)生成圖像時,生成器模型的最後一層通常會決定生成圖
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
透過這篇文章,我們將瞭解如何使用PyTorch實作圖神經網絡中的訊息傳遞機制,從定義消息傳遞的類別到實作消息傳遞過程。我們也探討了各種不同的消息傳遞機制,並通過對單次和多次傳遞過程的結果,可以看到節點特徵如何逐步傳遞與更新。
Thumbnail
透過這篇文章,我們將瞭解如何使用PyTorch實作圖神經網絡中的訊息傳遞機制,從定義消息傳遞的類別到實作消息傳遞過程。我們也探討了各種不同的消息傳遞機制,並通過對單次和多次傳遞過程的結果,可以看到節點特徵如何逐步傳遞與更新。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News