深度學習基本概念簡介（下）

dab戴伯

2024/05/06 更新2024/04/30 發佈閱讀 3 分鐘

在前一篇中提到，我們可以透過y= bx+w 來當作機器用來預測的函數。但有時如果函數太過簡單，函數與實際輸出的值之間的差距無論怎麼調整都會存在，也就是前一節提到的Model Bias問題。

為了解決沒有彈性的問題，就有了sigmoid函數。

Sigmoid

當一條linear curve無法有效的預測我們需要的值，這時我們可以透過precise linear curve來得到我們需要的函數。

但是precise linear curve本身的函數是不容易寫出的，因此我們可以用sigmoid函數逼近該precise linear curve。

*precise linear curve: 一條由很多線段所組成的鋸齒線（constant + a set of linear curve）。

Sigmoid函數的定義：y = c * (1 / 1 + e^-(b+wx) )

規則：

當w無限大，就會趨近於平線。改變W → 改變斜率
改變c → 改變高度
改變b → 平移shift

Part 1. 尋找函數Function

我們把sigmoid函數套用到原本的函數中，就會變成

y = b + wx₁ -> y = Σc_isigmoid(b_i + w_ix₁)

y=b+Σw_ijx_j -> y= Σc_isigmoid(b_i + Σw_ijx_j)，j是天數。 w_ijx_j為不同天數的數據與權重參數。

將函數展開：

r₁ = b₁ + w₁₁x₁ + w₁₂x₁ + w₁₃x₃

r₂ = b₂ + w₂₁x₁ + w₂₂x₁ + w₂₃x₃

r₂ = b₃ + w₃₁x₁ + w₃₂x₁ + w₃₃x₃

將展開的公式以矩陣表示：r = b + wx

最後乘上C_i加上b，就會得到預測的值y。同時我們也能將這個步驟轉為矩陣的方式表示：

透過以上三個步驟，我們就能完成第一步的尋找函數function過程。

*我們要尋找的參數w,b,c可以統一變為θ矩陣，透過訓練資料找到最適合的參數值。

Part 2. 尋找讓Loss最小的參數θ

接著我們要尋找讓loss最小的參數，讓L(θ)的值可以最小，因此我們挑選一個θ₀當作初始值，讓L對每個θ_i微分，就可以得到一組gradient。

因此每次更新的公式: θ₁ = θ₀ - g * learning rate。

那要更新多久呢？

gradient = 0
不想做了為止。

使用Batch

不過通常，我們在做gradient decent的時候，偏向於把大量的訓練資料區分為好幾個batch(隨機區分即可)，然後先利用batch1 將θ₀更新成θ₁，接著再把batch2的資料拿來將θ₁更新成θ₂。

*把所有的batch更新過一次，被稱為1 epoch。

反覆進行Sigmoid，以得到最佳解

為什麼我們需要不斷地堆疊更多的sigmoid或是前面線性函數的層數？

因為我們在預測的輸出資料，通常不會精準的符合某個函數的圖形。因此我們需要透過不斷地堆疊，去近似於我們目標的模型，藉此找到預測的方程式。而這樣重複堆疊的過程，就是深度學習的由來。

我們也不一定要只使用一個sigmoid，當我們重複加上更多的sigmoid，也可以更優化模型。至於要做幾次（layer），這也由我們自己控制的部分(hyperparameter)。

-> 以上的步驟與以下的圖型，也說明了為什麼它被稱為神經網路，或是深度學習

（Deep的由來：很多hidden layer疊加在一起）。

參考資料：

留言

留言分享你的想法！

dab戴伯的沙龍

1會員

37內容數

dab戴伯的沙龍的其他內容

2024/09/03

機器學習模型訓練問題及解決策略

*本文章為參考李弘毅2021年機器學習課程後的筆記。在訓練模型的時候，常常會遇到訓練上的問題，像是Loss值太大，或是Test出來的結果不如預期，但我們又不知道模型中到底發生了甚麼事，就跟黑盒子一樣。因此，感謝李弘毅教授傳授了一套SOP來幫助我們判斷模型是哪裡出了問題，應該要怎麼解決!!

2024/09/03

機器學習模型訓練問題及解決策略

2024/05/16

BERT與GPT: 自監督學習的大型模型

本文介紹自我監督學習的概念和訓練方式，以BERT和GPT為例，深入探討Masking Input及Fine-Tune的實際操作和可應用性。

2024/05/16

BERT與GPT: 自監督學習的大型模型

本文介紹自我監督學習的概念和訓練方式，以BERT和GPT為例，深入探討Masking Input及Fine-Tune的實際操作和可應用性。

2024/05/15

生成式對抗網路GAN

這篇文章探討了生成式對抗網路中機率分佈的使用與相關的訓練方式，包括Generator不同的點、Distriminator的訓練過程、生成圖片的條件設定等。此外，也提到了GAN訓練的困難與解決方式以及不同的learning方式。文章內容豐富且詳細，涵蓋了GAN的各個相關面向。

2024/05/15

生成式對抗網路GAN

看更多

你可能也想看

小橘貓沙沙的沙龍

旅遊前的神隊友！✈️第一次歐洲旅行，我在蝦皮購買了這4樣超實用旅遊好物！

去歐洲真的是又興奮又緊張。網路上常說歐洲治安不好，行前說明會時領隊也提醒：「不要背後背包，隨身物要放在前面比較安全！」但出國玩總是想打扮得美美的啊～而且隨身總得帶些實用小物：雨傘、濕紙巾、小瓶水、萬用藥膏……體積雖小，但零零總總裝起來也不少。我在蝦皮購買了這4樣超實用旅遊好物！減緩我的焦慮感。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

小橘貓沙沙的沙龍

旅遊前的神隊友！✈️第一次歐洲旅行，我在蝦皮購買了這4樣超實用旅遊好物！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

海倫觀察室 Helen's Insights

告別書本絕緣體！1 歲半寶寶愛上的互動書單㊙️，精打細算媽咪的「聰明消費」秘笈！

開箱 3 套深受 0-6 歲寶寶喜愛的互動式童書，包含 Bizzy Bear 推拉書、小小音樂大師有聲書、Poke A Dot 泡泡書，有效提升寶寶閱讀興趣與親子共讀時光。搭配蝦皮雙 11 購物攻略，教你如何鎖定免運、折價券、高額回饋，並透過蝦皮分潤計畫，將日常購物開銷轉化為穩定育兒基金，聰明消費。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05