深度學習中的Batch與Momentum

dab戴伯的沙龍

dab戴伯的沙龍

深度學習中的Batch與Momentum

更新於 2024/04/30發佈於 2024/04/30閱讀時間約 2 分鐘

Batch是甚麼?

batch的目的是幫助我們將訓練的資料"分組"，假如有120筆資料，我們想平均分成12個batch，那每一組batch就會有10筆資料(batch size = 10)。
接著，我們在更新gradient與參數θ時，就會根據每一組batch更新一次。以上面的例子，我們有12組batch，所以會更新12次

*shuffle: 每一次epoch之後，重新分配一次batch。

為甚麼需要使用Batch?

batch size = N(full batch)，也就是每組batch的資料量與我們的資料量一樣多的狀況 -> 比較耗時，但穩定度高。(因為每更新一次，就要將一個batch中20筆資料的loss算完加總。)
batch size =1，每組batch中只有一筆資料的情況 -> 比較省時，但不穩定。

Example:

假設有我們有20筆資料要做更新，有兩種batch size: N=10 or 1

Batch size = 10的情況中，每更新一次，就必須將10筆資料的Loss加總。

而batch size =1的情況中，每次更新，都只要計算1筆資料的Loss。

但事實上，batch size比較大的情況，不一定會比batch size小的情況耗時。

-> 因為實際在運算時，可以藉由我們GPU的硬體加乘，讓多筆data可以平行運算。

-> 但有趣的是，我們會發現batch size越小，training的精準度會越好，這也可以被稱為Noisy Update。而大的batch size會得到比較不好的結果 -> optimization fail

Momentum 動量

動量的創造是為了解決卡在local minima與saddle point的情況。可以想像有一顆球在曲線上滾動，只要他遇到還有更低點，那球自然會繼續滾動，我們就是要模擬這樣的狀況。

那要如何模擬呢？

movement m_i可以假設是上一步運動的方向。

所以具體的算法就會變成：

θ₁ = θ₀ - learning rate * g

=> θ₁ = θ₀ + m₁, m₁= λm₀ - (learning rate * g), λ由我們自己調整。

可以想像成動量守恆，必須加上原本運動的方向。

raw-image

dab戴伯的沙龍

1會員

37內容數

留言

留言分享你的想法！

dab戴伯的沙龍的其他內容

機器學習模型訓練問題及解決策略

*本文章為參考李弘毅2021年機器學習課程後的筆記。在訓練模型的時候，常常會遇到訓練上的問題，像是Loss值太大，或是Test出來的結果不如預期，但我們又不知道模型中到底發生了甚麼事，就跟黑盒子一樣。因此，感謝李弘毅教授傳授了一套SOP來幫助我們判斷模型是哪裡出了問題，應該要怎麼解決!!

#模型 #學習 #增加

BERT與GPT: 自監督學習的大型模型

本文介紹自我監督學習的概念和訓練方式，以BERT和GPT為例，深入探討Masking Input及Fine-Tune的實際操作和可應用性。

#機器學習 #深度學習 #ChatGPT

生成式對抗網路GAN

這篇文章探討了生成式對抗網路中機率分佈的使用與相關的訓練方式，包括Generator不同的點、Distriminator的訓練過程、生成圖片的條件設定等。此外，也提到了GAN訓練的困難與解決方式以及不同的learning方式。文章內容豐富且詳細，涵蓋了GAN的各個相關面向。

#機器學習 #AI #深度學習

機器學習模型訓練問題及解決策略

*本文章為參考李弘毅2021年機器學習課程後的筆記。在訓練模型的時候，常常會遇到訓練上的問題，像是Loss值太大，或是Test出來的結果不如預期，但我們又不知道模型中到底發生了甚麼事，就跟黑盒子一樣。因此，感謝李弘毅教授傳授了一套SOP來幫助我們判斷模型是哪裡出了問題，應該要怎麼解決!!

#模型 #學習 #增加

BERT與GPT: 自監督學習的大型模型

本文介紹自我監督學習的概念和訓練方式，以BERT和GPT為例，深入探討Masking Input及Fine-Tune的實際操作和可應用性。

#機器學習 #深度學習 #ChatGPT

生成式對抗網路GAN

這篇文章探討了生成式對抗網路中機率分佈的使用與相關的訓練方式，包括Generator不同的點、Distriminator的訓練過程、生成圖片的條件設定等。此外，也提到了GAN訓練的困難與解決方式以及不同的learning方式。文章內容豐富且詳細，涵蓋了GAN的各個相關面向。

#機器學習 #AI #深度學習