第二部：《深度學習》15/100 損失函數實例：交叉熵 vs 均方誤差 ⚖ 不同任務選對工具才有效！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/04 更新2025/09/04 發佈閱讀 6 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部：《深度學習 —— 神經網路的革命》

15/100 第二週：多層感知器 MLP

15. 損失函數實例：交叉熵 vs 均方誤差 ⚖ 不同任務選對工具才有效！

________________________________________

✅ 核心概念：

損失函數（Loss Function）決定了模型「學習的方向」，是衡量預測值與真實值差距的關鍵指標。

選錯損失函數就像用尺量重量，永遠得不到正確的結果！

📌 本節將比較兩種常見損失函數：

• 交叉熵（Cross Entropy） → 用於分類任務

• 均方誤差（MSE） → 用於迴歸任務

________________________________________

🔍 一、交叉熵損失（Cross Entropy Loss）

衡量兩個機率分布之間的差異，常用於分類問題。

🚦 適用場景：

• 二分類（Sigmoid + BCE）

• 多分類（Softmax + Categorical CE）

📐 定義公式（多分類）：

L = - Σ yᵢ · log(ŷᵢ)

其中：

• yᵢ 是實際標籤（one-hot 編碼）

• ŷᵢ 是模型預測的機率值

✅ 優點：

• 對機率差異敏感（預測錯誤會產生很大懲罰）

• 與 Softmax/Sigmoid 自然搭配

• 更容易收斂與穩定

________________________________________

🧮 二、均方誤差（Mean Squared Error, MSE）

用於測量預測值與實際值的距離平方差，常見於數值預測（迴歸）。

🚦 適用場景：

• 連續數值輸出（預測房價、溫度、股價）

• 非分類問題

📐 定義公式：

L = (1/n) Σ (y - ŷ)²

✅ 優點：

• 簡單直觀

• 適合數值距離的最小化

⚠ 缺點：

• 在分類任務中，梯度收斂慢，效果差

• 對離群值過於敏感

________________________________________

📊 損失函數選擇比較表：

損失函數的選擇應根據任務性質而定。**均方誤差（MSE）適用於迴歸問題，輸出為連續數值，對離群值特別敏感，收斂速度較慢，常用於房價或股價預測；而交叉熵（Cross Entropy）**則專為分類任務設計，輸出為機率分布（如 Softmax 或 Sigmoid），對錯誤分類的懲罰較大，有助於提升分類準確性與收斂效率，適用於如 MNIST 手寫數字或圖像辨識等應用。兩者分別對應不同的輸出型態與學習需求，是深度學習模型設計中的重要選擇依據。

_______________________________________

🧪 TensorFlow 實作範例

🔹 用於分類（交叉熵）：

python

model.compile(optimizer='adam',

loss='sparse_categorical_crossentropy',

metrics=['accuracy'])

🔹 用於迴歸（均方誤差）：

python

model.compile(optimizer='adam',

loss='mean_squared_error',

metrics=['mae']) # 平均絕對誤差

上面的程式碼展示了 TensorFlow 在不同任務下的設定：分類問題使用 交叉熵（sparse_categorical_crossentropy） 搭配 accuracy 衡量準確率，迴歸問題則用 均方誤差（mean_squared_error） 搭配 平均絕對誤差（mae） 評估偏差，兩者皆透過 Adam 優化器 自動調整學習率來更新權重，差別只在於任務性質導致的損失函數與評估指標不同。

________________________________________

🧠 小提醒：分類時不要用 MSE！

使用均方誤差來做分類會出現什麼問題？

• 模型收斂變慢（因為機率輸出不是連續距離）

• Loss 很難引導模型把錯誤分類修正

✅ 正確做法是搭配 Softmax + Cross Entropy 才能提供足夠梯度訊號讓模型學會分類。

________________________________________

🎯 小結與啟示：

✅ 損失函數 = 模型學習的方向指引

✅ 分類用交叉熵，預測數值用 MSE，選對工具事半功倍！

✅ 不同模型結構對損失函數的敏感度不同，要根據任務類型來選擇

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

459內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/08/29

第二部：《深度學習》14/100 學習率與梯度下降技巧 📉 調得好，收斂快又穩！

學習率決定模型每次更新權重的步伐大小，是訓練中最關鍵的超參數之一。若學習率太大，模型會震盪不收斂；太小則收斂太慢。透過梯度下降法與適當的學習率調整技巧（如 Adam、Decay、Momentum、Warm-up）可加速並穩定模型訓練。選對學習率，能讓模型快速且準確地學到最佳解。

2025/08/29

第二部：《深度學習》14/100 學習率與梯度下降技巧 📉 調得好，收斂快又穩！

2025/08/29

第二部：《深度學習》13/100 激活函數深入解析 🔧 非線性，才是智慧的來源！

激活函數是神經網路能學習非線性特徵的關鍵，沒有它，無論堆疊多少層都只是線性模型。常見激活函數如 ReLU、Sigmoid、Tanh、Leaky ReLU、Softmax 各有用途，其中 ReLU 最常用，具高效與快速收斂優點。選擇合適的激活函數能讓模型具備更強的表達力與判斷力，是深度學習的核心之一。

2025/08/29

第二部：《深度學習》13/100 激活函數深入解析 🔧 非線性，才是智慧的來源！

2025/08/29

第二部：《深度學習》12/100 為什麼需要隱藏層？🧱 加深模型，學出抽象概念！

隱藏層讓神經網路能學習資料中的抽象特徵與非線性關係。若只有輸入與輸出層，模型僅能學習簡單的線性對應，難以處理複雜問題。加入隱藏層後，模型能逐層提取更深層的模式與結構，是深度學習成功的關鍵。隱藏層越多，模型表達力越強，但也需注意過擬合風險。

2025/08/29

第二部：《深度學習》12/100 為什麼需要隱藏層？🧱 加深模型，學出抽象概念！

看更多

你可能也想看