深度學習基本概念簡介（下）

dab戴伯

更新於 2024/05/06發佈於 2024/04/30閱讀時間約 3 分鐘

在前一篇中提到，我們可以透過y= bx+w 來當作機器用來預測的函數。但有時如果函數太過簡單，函數與實際輸出的值之間的差距無論怎麼調整都會存在，也就是前一節提到的Model Bias問題。

為了解決沒有彈性的問題，就有了sigmoid函數。

Sigmoid

當一條linear curve無法有效的預測我們需要的值，這時我們可以透過precise linear curve來得到我們需要的函數。

但是precise linear curve本身的函數是不容易寫出的，因此我們可以用sigmoid函數逼近該precise linear curve。

*precise linear curve: 一條由很多線段所組成的鋸齒線（constant + a set of linear curve）。

Sigmoid函數的定義：y = c * (1 / 1 + e^-(b+wx) )

規則：

當w無限大，就會趨近於平線。改變W → 改變斜率
改變c → 改變高度
改變b → 平移shift

Part 1. 尋找函數Function

我們把sigmoid函數套用到原本的函數中，就會變成

y = b + wx₁ -> y = Σc_isigmoid(b_i + w_ix₁)

y=b+Σw_ijx_j -> y= Σc_isigmoid(b_i + Σw_ijx_j)，j是天數。 w_ijx_j為不同天數的數據與權重參數。

將函數展開：

r₁ = b₁ + w₁₁x₁ + w₁₂x₁ + w₁₃x₃

r₂ = b₂ + w₂₁x₁ + w₂₂x₁ + w₂₃x₃

r₂ = b₃ + w₃₁x₁ + w₃₂x₁ + w₃₃x₃

將展開的公式以矩陣表示：r = b + wx

最後乘上C_i加上b，就會得到預測的值y。同時我們也能將這個步驟轉為矩陣的方式表示：

透過以上三個步驟，我們就能完成第一步的尋找函數function過程。

*我們要尋找的參數w,b,c可以統一變為θ矩陣，透過訓練資料找到最適合的參數值。

Part 2. 尋找讓Loss最小的參數θ

接著我們要尋找讓loss最小的參數，讓L(θ)的值可以最小，因此我們挑選一個θ₀當作初始值，讓L對每個θ_i微分，就可以得到一組gradient。

因此每次更新的公式: θ₁ = θ₀ - g * learning rate。

那要更新多久呢？

gradient = 0
不想做了為止。

使用Batch

不過通常，我們在做gradient decent的時候，偏向於把大量的訓練資料區分為好幾個batch(隨機區分即可)，然後先利用batch1 將θ₀更新成θ₁，接著再把batch2的資料拿來將θ₁更新成θ₂。

*把所有的batch更新過一次，被稱為1 epoch。

反覆進行Sigmoid，以得到最佳解

為什麼我們需要不斷地堆疊更多的sigmoid或是前面線性函數的層數？

因為我們在預測的輸出資料，通常不會精準的符合某個函數的圖形。因此我們需要透過不斷地堆疊，去近似於我們目標的模型，藉此找到預測的方程式。而這樣重複堆疊的過程，就是深度學習的由來。

我們也不一定要只使用一個sigmoid，當我們重複加上更多的sigmoid，也可以更優化模型。至於要做幾次（layer），這也由我們自己控制的部分(hyperparameter)。

-> 以上的步驟與以下的圖型，也說明了為什麼它被稱為神經網路，或是深度學習

（Deep的由來：很多hidden layer疊加在一起）。

參考資料：

dab戴伯的沙龍

1會員

37內容數

留言

留言分享你的想法！

dab戴伯的沙龍的其他內容

機器學習模型訓練問題及解決策略

*本文章為參考李弘毅2021年機器學習課程後的筆記。在訓練模型的時候，常常會遇到訓練上的問題，像是Loss值太大，或是Test出來的結果不如預期，但我們又不知道模型中到底發生了甚麼事，就跟黑盒子一樣。因此，感謝李弘毅教授傳授了一套SOP來幫助我們判斷模型是哪裡出了問題，應該要怎麼解決!!

#模型 #學習 #增加

BERT與GPT: 自監督學習的大型模型

本文介紹自我監督學習的概念和訓練方式，以BERT和GPT為例，深入探討Masking Input及Fine-Tune的實際操作和可應用性。

#機器學習 #深度學習 #ChatGPT

生成式對抗網路GAN

這篇文章探討了生成式對抗網路中機率分佈的使用與相關的訓練方式，包括Generator不同的點、Distriminator的訓練過程、生成圖片的條件設定等。此外，也提到了GAN訓練的困難與解決方式以及不同的learning方式。文章內容豐富且詳細，涵蓋了GAN的各個相關面向。

#機器學習 #AI #深度學習