第二部:《深度學習》17/100 權重初始化技巧 🌱 好的開始是成功的一半!

更新於 發佈於 閱讀時間約 6 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

17/100 第二週:多層感知器 MLP

17.權重初始化技巧 🌱 好的開始是成功的一半!

________________________________________

✅ 核心概念:

神經網路的學習過程是從隨機初始化權重開始的,但「隨機」並不代表可以亂來!

📌 若初始化太大 → 容易梯度爆炸

📌 若初始化太小 → 容易梯度消失

📌 若全部初始化為一樣 → 對稱性無法打破,模型學不到東西

所以:權重初始化策略 = 模型是否能順利開始學習的關鍵起跑點。

________________________________________

🔍 為什麼不能都設成 0?

如果你把所有權重初始化為 0,則每個神經元收到相同輸入、學習相同東西 → 無法打破對稱 → 相當於只有一顆神經元在學習,這樣的網路無法發揮功能。

________________________________________

🌱 常見初始化策略總整理:

常見的權重初始化策略對深度學習模型的訓練成效有關鍵影響。

Random Normal 是最基本的初始化方法,雖簡單但易導致梯度消失,訓練不穩;

Xavier(Glorot)初始化 適合使用 Sigmoid 或 Tanh 的網路,可保持前後層輸入輸出方差一致,提升收斂穩定性;

He 初始化 則專為 ReLU 系列激活函數設計,能有效避免前幾層輸出過小,有助深層網路學習;

而將權重設為 Constant 或 Zeros 雖可用於偏差項(bias),但若用於權重會使所有神經元學習方向相同,無法有效更新,因此不建議使用。選擇合適的初始化方式,是建立穩定深度模型的第一步。

________________________________________

🧠 Xavier 與 He 初始化差異解析:

  • Xavier 初始化
    • 計算方式:Var = 1 / (n_in + n_out)
    • 適用激活函數:Sigmoid、Tanh
  • He 初始化
    • 計算方式:Var = 2 / n_in
    • 適用激活函數:ReLU、Leaky ReLU

📌 n_in: 輸入單元數量;n_out: 輸出單元數量

________________________________________

⚙️ TensorFlow 實作方式:

python

from tensorflow.keras import layers, initializers

model = tf.keras.Sequential([

layers.Dense(128, activation='relu',

kernel_initializer=initializers.HeNormal()),

layers.Dense(10, activation='softmax',

kernel_initializer=initializers.GlorotUniform())

])

這段程式碼定義了一個使用 TensorFlow/Keras 建構的簡單前饋神經網路,共兩層 Dense 全連接層,並針對不同層選用合適的初始化方式。第一層具有 128 個神經元,使用 ReLU 激活函數,搭配 HeNormal 初始化器,這種初始化專為 ReLU 設計,有助於避免梯度消失並提升深層網路的學習效果;第二層是輸出層,有 10 個神經元(對應 10 類分類),使用 Softmax 激活函數產生機率分布,並採用 GlorotUniform(Xavier) 初始化器,能維持輸入輸出方差平衡,使分類結果更穩定。整體設計合理且符合實務最佳慣例。

________________________________________

📊 初始化策略對訓練影響:

在神經網路初始化方式中,各方法對收斂速度、準確率與風險影響不同。Xavier 初始化收斂速度中等,表現穩定,特別適合與 Sigmoid 搭配使用。He 初始化則能加速收斂並提高準確率,最適合 ReLU 或其變種激活函數結構。Random Normal 初始化通常導致收斂較慢,準確率不穩定,因初始梯度容易過大或過小。若採用Zero 初始化,神經元權重完全相同,導致無法分工,模型無法收斂,因此是不可取的選擇。

________________________________________

💡 小技巧建議:

ReLU → He Normal

Sigmoid/Tanh → Xavier

避免自定義大範圍隨機初始值(如 ±10)

________________________________________

🎯 小結與啟示:

✅ 權重初始化雖然只設定一次,但會「決定模型學習能不能啟動」

✅ 不同激活函數適合不同初始化策略

✅ 初始化不是點火器,是燃料管理器,讓梯度穩定流動才是關鍵!



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
8會員
137內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/04
批次訓練決定每次更新使用多少資料,影響速度與穩定性。Batch GD 穩定但耗資源,SGD 更新快卻波動大,Mini-Batch 則折衷最常用。常見批次大小為 32~128,能兼顧效率與收斂穩定性,並適合 GPU 加速。批次過大可能導致泛化下降或記憶體不足,因此需根據資料與硬體調整。
2025/09/04
批次訓練決定每次更新使用多少資料,影響速度與穩定性。Batch GD 穩定但耗資源,SGD 更新快卻波動大,Mini-Batch 則折衷最常用。常見批次大小為 32~128,能兼顧效率與收斂穩定性,並適合 GPU 加速。批次過大可能導致泛化下降或記憶體不足,因此需根據資料與硬體調整。
2025/09/04
損失函數是模型學習的方向指引。分類任務用交叉熵,能精準衡量機率差異並加速收斂;迴歸任務用均方誤差,適合連續數值預測但對離群值敏感。若誤用 MSE 做分類,會導致收斂慢且準確率差。選對損失函數才能提升模型效能。
2025/09/04
損失函數是模型學習的方向指引。分類任務用交叉熵,能精準衡量機率差異並加速收斂;迴歸任務用均方誤差,適合連續數值預測但對離群值敏感。若誤用 MSE 做分類,會導致收斂慢且準確率差。選對損失函數才能提升模型效能。
2025/08/29
學習率決定模型每次更新權重的步伐大小,是訓練中最關鍵的超參數之一。若學習率太大,模型會震盪不收斂;太小則收斂太慢。透過梯度下降法與適當的學習率調整技巧(如 Adam、Decay、Momentum、Warm-up)可加速並穩定模型訓練。選對學習率,能讓模型快速且準確地學到最佳解。
2025/08/29
學習率決定模型每次更新權重的步伐大小,是訓練中最關鍵的超參數之一。若學習率太大,模型會震盪不收斂;太小則收斂太慢。透過梯度下降法與適當的學習率調整技巧(如 Adam、Decay、Momentum、Warm-up)可加速並穩定模型訓練。選對學習率,能讓模型快速且準確地學到最佳解。
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News