第二部:《深度學習》15/100 損失函數實例:交叉熵 vs 均方誤差 ⚖ 不同任務選對工具才有效!

更新於 發佈於 閱讀時間約 6 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

15/100 第二週:多層感知器 MLP

15. 損失函數實例:交叉熵 vs 均方誤差 ⚖ 不同任務選對工具才有效!

________________________________________

✅ 核心概念:

損失函數(Loss Function)決定了模型「學習的方向」,是衡量預測值與真實值差距的關鍵指標。

選錯損失函數就像用尺量重量,永遠得不到正確的結果!

📌 本節將比較兩種常見損失函數:

交叉熵(Cross Entropy) → 用於分類任務

均方誤差(MSE) → 用於迴歸任務

________________________________________

🔍 一、交叉熵損失(Cross Entropy Loss)

衡量兩個機率分布之間的差異,常用於分類問題。

🚦 適用場景:

二分類(Sigmoid + BCE)

多分類(Softmax + Categorical CE)

📐 定義公式(多分類):

L = - Σ yᵢ · log(ŷᵢ)

其中:

yᵢ 是實際標籤(one-hot 編碼)

ŷᵢ 是模型預測的機率值

✅ 優點:

對機率差異敏感(預測錯誤會產生很大懲罰)

與 Softmax/Sigmoid 自然搭配

更容易收斂與穩定

________________________________________

🧮 二、均方誤差(Mean Squared Error, MSE)

用於測量預測值與實際值的距離平方差,常見於數值預測(迴歸)。

🚦 適用場景:

連續數值輸出(預測房價、溫度、股價)

非分類問題

📐 定義公式:

L = (1/n) Σ (y - ŷ)²

✅ 優點:

簡單直觀

適合數值距離的最小化

⚠ 缺點:

在分類任務中,梯度收斂慢,效果差

對離群值過於敏感

________________________________________

📊 損失函數選擇比較表:

損失函數的選擇應根據任務性質而定。**均方誤差(MSE)適用於迴歸問題,輸出為連續數值,對離群值特別敏感,收斂速度較慢,常用於房價或股價預測;而交叉熵(Cross Entropy)**則專為分類任務設計,輸出為機率分布(如 Softmax 或 Sigmoid),對錯誤分類的懲罰較大,有助於提升分類準確性與收斂效率,適用於如 MNIST 手寫數字或圖像辨識等應用。兩者分別對應不同的輸出型態與學習需求,是深度學習模型設計中的重要選擇依據。

_______________________________________

🧪 TensorFlow 實作範例

🔹 用於分類(交叉熵):

python

model.compile(optimizer='adam',

loss='sparse_categorical_crossentropy',

metrics=['accuracy'])

🔹 用於迴歸(均方誤差):

python

model.compile(optimizer='adam',

loss='mean_squared_error',

metrics=['mae']) # 平均絕對誤差

上面的程式碼展示了 TensorFlow 在不同任務下的設定:分類問題使用 交叉熵(sparse_categorical_crossentropy) 搭配 accuracy 衡量準確率,迴歸問題則用 均方誤差(mean_squared_error) 搭配 平均絕對誤差(mae) 評估偏差,兩者皆透過 Adam 優化器 自動調整學習率來更新權重,差別只在於任務性質導致的損失函數與評估指標不同。

________________________________________

🧠 小提醒:分類時不要用 MSE!

使用均方誤差來做分類會出現什麼問題?

模型收斂變慢(因為機率輸出不是連續距離)

Loss 很難引導模型把錯誤分類修正

✅ 正確做法是搭配 Softmax + Cross Entropy 才能提供足夠梯度訊號讓模型學會分類。

________________________________________

🎯 小結與啟示:

✅ 損失函數 = 模型學習的方向指引

✅ 分類用交叉熵,預測數值用 MSE,選對工具事半功倍!

✅ 不同模型結構對損失函數的敏感度不同,要根據任務類型來選擇



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
8會員
148內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/08/29
學習率決定模型每次更新權重的步伐大小,是訓練中最關鍵的超參數之一。若學習率太大,模型會震盪不收斂;太小則收斂太慢。透過梯度下降法與適當的學習率調整技巧(如 Adam、Decay、Momentum、Warm-up)可加速並穩定模型訓練。選對學習率,能讓模型快速且準確地學到最佳解。
2025/08/29
學習率決定模型每次更新權重的步伐大小,是訓練中最關鍵的超參數之一。若學習率太大,模型會震盪不收斂;太小則收斂太慢。透過梯度下降法與適當的學習率調整技巧(如 Adam、Decay、Momentum、Warm-up)可加速並穩定模型訓練。選對學習率,能讓模型快速且準確地學到最佳解。
2025/08/29
激活函數是神經網路能學習非線性特徵的關鍵,沒有它,無論堆疊多少層都只是線性模型。常見激活函數如 ReLU、Sigmoid、Tanh、Leaky ReLU、Softmax 各有用途,其中 ReLU 最常用,具高效與快速收斂優點。選擇合適的激活函數能讓模型具備更強的表達力與判斷力,是深度學習的核心之一。
2025/08/29
激活函數是神經網路能學習非線性特徵的關鍵,沒有它,無論堆疊多少層都只是線性模型。常見激活函數如 ReLU、Sigmoid、Tanh、Leaky ReLU、Softmax 各有用途,其中 ReLU 最常用,具高效與快速收斂優點。選擇合適的激活函數能讓模型具備更強的表達力與判斷力,是深度學習的核心之一。
2025/08/29
隱藏層讓神經網路能學習資料中的抽象特徵與非線性關係。若只有輸入與輸出層,模型僅能學習簡單的線性對應,難以處理複雜問題。加入隱藏層後,模型能逐層提取更深層的模式與結構,是深度學習成功的關鍵。隱藏層越多,模型表達力越強,但也需注意過擬合風險。
2025/08/29
隱藏層讓神經網路能學習資料中的抽象特徵與非線性關係。若只有輸入與輸出層,模型僅能學習簡單的線性對應,難以處理複雜問題。加入隱藏層後,模型能逐層提取更深層的模式與結構,是深度學習成功的關鍵。隱藏層越多,模型表達力越強,但也需注意過擬合風險。
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News