深度學習優化中的動態學習率

更新於 2024/04/30發佈於 2024/04/30閱讀時間約 3 分鐘

隨著gradient不斷地update，最後走向了gradient =0或是gradient非常小時，Loss無法在優化的狀況 → 通常我們會判斷是走到了critical point → 但真的是critical point嗎?

-> 調整學習速率幫助我們檢查和更進一步優化loss。

為什麼需要動態的learning rate?

我們可以想像一個error surface的最低點位在兩個狹窄的山壁之間，此時如果我們的learning rate很大，那就會不斷地在山壁間打轉，始終沒辦法往下；反之，如果我們設定learning rate很小，雖然可以往下優化loss，但因為底部非常平滑，就會導致花了很大量的時間更新，還是沒辦法得到loss的最佳解。因此我們需要一個動態的learning rate。

Root Mean Square

一般我們更新參數θ的方式： θ_i = θ_i-1 - η*g

那在動態的learning rate中，我們加上一個控制learning rate的參數σ。

=> θ_i = θ_i-1 - (η/σ^t)*g. *(η/σ^t)被稱為dependent learning

=> σ^t= 所有使用過的gradient值開根號平方的平均。

=> 這是被Root Mean Square的動態learning rate。

為什麼能夠動態呢？

想像當我們的曲線平緩的時候，gradient就小 -> σ^t就小 -> dependent learning就會變大。

RMSProp

在RMS的方法中，每一個gradient值的權重都是相同的，但在RMSProp中，我們可以自行決定當前gradient值的權重α，以及剩餘的gradient值的權重(1-α)

→ 為的是更快反應當前的位置與平緩程度。當前算出來的gradient代表的是當前的位置以及平緩程度，因此我們可以藉由調整α值，讓更新可以更快被反應，而不會像原本的RMS反應得如此緩慢。

*至今最常用的optimization策略: Adam = RMSProp + Momentom

但是透過RMSProp的方法有可能造成下圖突然暴衝的狀況！ → 因為過去累積太多縱軸移動的值σ，雖然最後還是會回歸到原本的位置，但就會有這種狀況 → 如何避免？ → 進行Learning rate Scheduling

Learning rate Scheduling兩種方法：

learning rate decay: 讓learning rate逐漸減少，因為我們每次更新，都會更接近終點，所以讓learning rate逐漸減少是合理的，同時也能阻止暴衝的狀況（因爲值本身就比較小）。
warm up：讓learning rate先增加，在減小。因為初始時我們不確定狀況如何，所以我們摸索learning rate的值，慢慢抓到狀況後，才以learning rate最大值進行，之後就如learning rate decay慢慢減小。

1會員

37內容數

留言

留言分享你的想法！

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

dab戴伯的沙龍的其他內容

深度學習中的Batch與Momentum

本文將介紹batch的定義與其在機器學習中的作用，以及不同batch size 的影響。同時也會講解Momentum動量在機器學習中的重要性。透過本文，您將清楚地瞭解batch、batch size和Momentum動量的概念以及其對機器學習的影響。

#學習

類神經網路訓練局部最小值 (local minima) 與鞍點 (saddle point)

之前有提到有時我們在微分之後會得到gradient = 0的值，就以為我們已經找到最小值，但其實它只是local minima。那這一節主要想跟大家分享我們要怎麼區分是不是Local Minima。

深度學習基本概念簡介（下）

這篇文章介紹瞭如何使用sigmoid函數來解決函數過於簡單導致的模型偏差問題，並透過尋找函數和參數來逼近precise linear curve。另外，也講述瞭如何尋找讓損失函數最小的參數以及使用batch和反覆進行Sigmoid的方法。

#學習

機器學習基本概念簡介（上）

機器學習是什麼? 簡單來說，機器學習就是訓練機器尋找Function的一段過程，而這個Function可以幫助我們解決我們遇到的問題，或是幫助我們

靜態類與(Static)以及內存洩漏問題

static 關鍵字主要用於管理記憶體，可用在variables, methods, blocks, nested classed。加上static關鍵字的物件，會在啟動程式當下就會賦予記憶體位置給此物件，後續無論實例化多少次，記憶體的位置都相同。以class舉例，static class 與

Android 中各個Image檔整理

在Android 編譯成功後，在out/target/product/generic會產生與系統對應的映像檔，分別是ramdisk.img關於root文件系統, system.img關於主要的包及庫, userdata.img關於用戶數據，分別對應的目錄為root, system, data映像檔簡