深度學習優化中的動態學習率

更新於 2024/04/30發佈於 2024/04/30閱讀時間約 3 分鐘

隨著gradient不斷地update，最後走向了gradient =0或是gradient非常小時，Loss無法在優化的狀況 → 通常我們會判斷是走到了critical point → 但真的是critical point嗎?

-> 調整學習速率幫助我們檢查和更進一步優化loss。

為什麼需要動態的learning rate?

我們可以想像一個error surface的最低點位在兩個狹窄的山壁之間，此時如果我們的learning rate很大，那就會不斷地在山壁間打轉，始終沒辦法往下；反之，如果我們設定learning rate很小，雖然可以往下優化loss，但因為底部非常平滑，就會導致花了很大量的時間更新，還是沒辦法得到loss的最佳解。因此我們需要一個動態的learning rate。

Root Mean Square

一般我們更新參數θ的方式： θ_i = θ_i-1 - η*g

那在動態的learning rate中，我們加上一個控制learning rate的參數σ。

=> θ_i = θ_i-1 - (η/σ^t)*g. *(η/σ^t)被稱為dependent learning

=> σ^t= 所有使用過的gradient值開根號平方的平均。

=> 這是被Root Mean Square的動態learning rate。

為什麼能夠動態呢？

想像當我們的曲線平緩的時候，gradient就小 -> σ^t就小 -> dependent learning就會變大。

RMSProp

在RMS的方法中，每一個gradient值的權重都是相同的，但在RMSProp中，我們可以自行決定當前gradient值的權重α，以及剩餘的gradient值的權重(1-α)

→ 為的是更快反應當前的位置與平緩程度。當前算出來的gradient代表的是當前的位置以及平緩程度，因此我們可以藉由調整α值，讓更新可以更快被反應，而不會像原本的RMS反應得如此緩慢。

*至今最常用的optimization策略: Adam = RMSProp + Momentom

但是透過RMSProp的方法有可能造成下圖突然暴衝的狀況！ → 因為過去累積太多縱軸移動的值σ，雖然最後還是會回歸到原本的位置，但就會有這種狀況 → 如何避免？ → 進行Learning rate Scheduling

Learning rate Scheduling兩種方法：

learning rate decay: 讓learning rate逐漸減少，因為我們每次更新，都會更接近終點，所以讓learning rate逐漸減少是合理的，同時也能阻止暴衝的狀況（因爲值本身就比較小）。
warm up：讓learning rate先增加，在減小。因為初始時我們不確定狀況如何，所以我們摸索learning rate的值，慢慢抓到狀況後，才以learning rate最大值進行，之後就如learning rate decay慢慢減小。

#學習

#權重

#Adam

留言

留言分享你的想法！

dab戴伯的沙龍

1會員

37內容數

dab戴伯的沙龍的其他內容

2024/09/03

機器學習模型訓練問題及解決策略

*本文章為參考李弘毅2021年機器學習課程後的筆記。在訓練模型的時候，常常會遇到訓練上的問題，像是Loss值太大，或是Test出來的結果不如預期，但我們又不知道模型中到底發生了甚麼事，就跟黑盒子一樣。因此，感謝李弘毅教授傳授了一套SOP來幫助我們判斷模型是哪裡出了問題，應該要怎麼解決!!