深度學習中的Batch與Momentum

閱讀時間約 2 分鐘

Batch是甚麼?

  1. batch的目的是幫助我們將訓練的資料"分組",假如有120筆資料,我們想平均分成12個batch,那每一組batch就會有10筆資料(batch size = 10)。
  2. 接著,我們在更新gradient與參數θ時,就會根據每一組batch更新一次。以上面的例子,我們有12組batch,所以會更新12次

*shuffle: 每一次epoch之後,重新分配一次batch。


為甚麼需要使用Batch?

  1. batch size = N(full batch),也就是每組batch的資料量與我們的資料量一樣多的狀況 -> 比較耗時,但穩定度高。(因為每更新一次,就要將一個batch中20筆資料的loss算完加總。)
  2. batch size =1,每組batch中只有一筆資料的情況 -> 比較省時,但不穩定。


Example:

假設有我們有20筆資料要做更新,有兩種batch size: N=10 or 1

Batch size = 10的情況中,每更新一次,就必須將10筆資料的Loss加總。

而batch size =1的情況中,每次更新,都只要計算1筆資料的Loss。


但事實上,batch size比較大的情況,不一定會比batch size小的情況耗時。

-> 因為實際在運算時,可以藉由我們GPU的硬體加乘,讓多筆data可以平行運算。

-> 但有趣的是,我們會發現batch size越小,training的精準度會越好,這也可以被稱為Noisy Update。而大的batch size會得到比較不好的結果 -> optimization fail




Momentum 動量

動量的創造是為了解決卡在local minima與saddle point的情況。可以想像有一顆球在曲線上滾動,只要他遇到還有更低點,那球自然會繼續滾動,我們就是要模擬這樣的狀況。

那要如何模擬呢?

movement mi可以假設是上一步運動的方向。

所以具體的算法就會變成:

θ1 = θ0 - learning rate * g

=> θ1 = θ0 + m1, m1 = λm0 - (learning rate * g), λ由我們自己調整。

可以想像成動量守恆,必須加上原本運動的方向。

raw-image



1會員
37內容數
留言0
查看全部
發表第一個留言支持創作者!
dab戴伯的沙龍 的其他內容
之前有提到有時我們在微分之後會得到gradient = 0的值,就以為我們已經找到最小值,但其實它只是local minima。 那這一節主要想跟大家分享我們要怎麼區分是不是Local Minima。
這篇文章介紹瞭如何使用sigmoid函數來解決函數過於簡單導致的模型偏差問題,並透過尋找函數和參數來逼近precise linear curve。另外,也講述瞭如何尋找讓損失函數最小的參數以及使用batch和反覆進行Sigmoid的方法。
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
static 關鍵字主要用於管理記憶體,可用在variables, methods, blocks, nested classed。加上static關鍵字的物件,會在啟動程式當下就會賦予記憶體位置給此物件,後續無論實例化多少次,記憶體的位置都相同。 以class舉例,static class 與
在Android 編譯成功後,在out/target/product/generic會產生與系統對應的映像檔,分別是ramdisk.img關於root文件系統, system.img關於主要的包及庫, userdata.img關於用戶數據,分別對應的目錄為root, system, data映像檔簡
主要在使用這兩種類型時常常會忘記,所以簡單整理一下內容 Stack Stack<Character> stack = new stack<>(); 屬於LIFO的特性,也就是先進後出的概念,因此所有動作通常是發生在top,可以想像成放球的瓶子,只有頂端一個開口可以拿最上面的那顆球。 可以使用
之前有提到有時我們在微分之後會得到gradient = 0的值,就以為我們已經找到最小值,但其實它只是local minima。 那這一節主要想跟大家分享我們要怎麼區分是不是Local Minima。
這篇文章介紹瞭如何使用sigmoid函數來解決函數過於簡單導致的模型偏差問題,並透過尋找函數和參數來逼近precise linear curve。另外,也講述瞭如何尋找讓損失函數最小的參數以及使用batch和反覆進行Sigmoid的方法。
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
static 關鍵字主要用於管理記憶體,可用在variables, methods, blocks, nested classed。加上static關鍵字的物件,會在啟動程式當下就會賦予記憶體位置給此物件,後續無論實例化多少次,記憶體的位置都相同。 以class舉例,static class 與
在Android 編譯成功後,在out/target/product/generic會產生與系統對應的映像檔,分別是ramdisk.img關於root文件系統, system.img關於主要的包及庫, userdata.img關於用戶數據,分別對應的目錄為root, system, data映像檔簡
主要在使用這兩種類型時常常會忘記,所以簡單整理一下內容 Stack Stack<Character> stack = new stack<>(); 屬於LIFO的特性,也就是先進後出的概念,因此所有動作通常是發生在top,可以想像成放球的瓶子,只有頂端一個開口可以拿最上面的那顆球。 可以使用
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
這本書訪談了大學學生,並且歸納出幾點建議,書中也提到不必每條條都嚴格遵守,而是選擇一組吸引你的規則,並在大學生活中履行。 我自己在看這本書的時候,結合自己的大學經歷,選取幾點我比較有感觸的部分,分為以下幾點,後面則會提到一些關於書中內容反思
Thumbnail
學術論文的段落比網路文章更為複雜。 利用筆記卡片的方式來解析學術論文能夠提煉出更具價值的知識。 此外,卡片化的學習方法可能對學術研究特別有用。
Thumbnail
英文學習貴在能學以致用。自學好(中)高階時事(商用)英文過程中,關鍵在於是否有足夠詞彙量?及是否能自行理解字裡行間複雜的文法結構?每日例行閱讀一篇國際知名新聞摘要,是自我提升英文很有效的方法,雖然花時間,但工整的複習筆記,就是建構自己知識庫很重要的學習資源。
Thumbnail
我因為老高關於講運氣的影片,看到某位觀眾留言4think的文章,文筆通順好閱讀、案例有趣好吸收,不看還看一看成粉絲,在這邊也推薦該網站給大家。 本書我推薦給對於閱讀、思考領域有興趣的讀者
Thumbnail
在資訊繁複的環境中,你是否經常感到學習過於分散、無法深入,或是難以理解自己的內心世界? 在這個瞬息萬變的世界裡,我們都渴望抓住並善用所獲得的知識,並深入理解自己的內在世界。你是否曾經苦惱過如何有效地管理學習,讓思考更有深度,或者如何更好地理解自己的情感和想法?這篇文章會為你揭示三個能有效解答這些問題
Thumbnail
記得2001年的時候,曾經上映一步電影,叫作「A.I.人工智慧」,格式是在描述一個機械小男孩,想要成為人類的故事。記得2001年的時候,曾經上映一步電影,叫作「A.I.人工智慧」,格式是在描述一個機械小男孩,想要成為人類的故事。 當時在看這部電影的時候,除了對於小男孩的執著印象深刻外,另外也在思考,
Thumbnail
快速精通專業的學習能力與在品質和速度達到高水準的生產能力,是在快速變化的數位時代中,取得不可取代性與競爭力的兩種關鍵能力,而這兩種關鍵能力與深度工作力息息相關:你是否能長時間專注在單一工作上。
Thumbnail
在一個波光粼粼的人造河邊,我想著怎麼樣的人,最後能走上創作這條路?作家這等人的本質是什麼? 從學術的世界出走,開始進入藝術的世界後,發現科學跟藝術,本質上是相似的-都需要面對一個人的孤獨。
Thumbnail
現代流圍棋五原則能擊敗(干擾)「ZenGo 九段」與「Katrain 9段」電腦圍棋,其意義類似當今時髦的愚弄人工智慧的「干擾遊戲」。也同時證明了,人類的圍棋智慧卻是「由上而下」(Top-Down)的「知識策略」,最終可能戰勝有史以來最強的AI人工智慧電腦圍棋─ AlphaGo Zero。
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
這本書訪談了大學學生,並且歸納出幾點建議,書中也提到不必每條條都嚴格遵守,而是選擇一組吸引你的規則,並在大學生活中履行。 我自己在看這本書的時候,結合自己的大學經歷,選取幾點我比較有感觸的部分,分為以下幾點,後面則會提到一些關於書中內容反思
Thumbnail
學術論文的段落比網路文章更為複雜。 利用筆記卡片的方式來解析學術論文能夠提煉出更具價值的知識。 此外,卡片化的學習方法可能對學術研究特別有用。
Thumbnail
英文學習貴在能學以致用。自學好(中)高階時事(商用)英文過程中,關鍵在於是否有足夠詞彙量?及是否能自行理解字裡行間複雜的文法結構?每日例行閱讀一篇國際知名新聞摘要,是自我提升英文很有效的方法,雖然花時間,但工整的複習筆記,就是建構自己知識庫很重要的學習資源。
Thumbnail
我因為老高關於講運氣的影片,看到某位觀眾留言4think的文章,文筆通順好閱讀、案例有趣好吸收,不看還看一看成粉絲,在這邊也推薦該網站給大家。 本書我推薦給對於閱讀、思考領域有興趣的讀者
Thumbnail
在資訊繁複的環境中,你是否經常感到學習過於分散、無法深入,或是難以理解自己的內心世界? 在這個瞬息萬變的世界裡,我們都渴望抓住並善用所獲得的知識,並深入理解自己的內在世界。你是否曾經苦惱過如何有效地管理學習,讓思考更有深度,或者如何更好地理解自己的情感和想法?這篇文章會為你揭示三個能有效解答這些問題
Thumbnail
記得2001年的時候,曾經上映一步電影,叫作「A.I.人工智慧」,格式是在描述一個機械小男孩,想要成為人類的故事。記得2001年的時候,曾經上映一步電影,叫作「A.I.人工智慧」,格式是在描述一個機械小男孩,想要成為人類的故事。 當時在看這部電影的時候,除了對於小男孩的執著印象深刻外,另外也在思考,
Thumbnail
快速精通專業的學習能力與在品質和速度達到高水準的生產能力,是在快速變化的數位時代中,取得不可取代性與競爭力的兩種關鍵能力,而這兩種關鍵能力與深度工作力息息相關:你是否能長時間專注在單一工作上。
Thumbnail
在一個波光粼粼的人造河邊,我想著怎麼樣的人,最後能走上創作這條路?作家這等人的本質是什麼? 從學術的世界出走,開始進入藝術的世界後,發現科學跟藝術,本質上是相似的-都需要面對一個人的孤獨。
Thumbnail
現代流圍棋五原則能擊敗(干擾)「ZenGo 九段」與「Katrain 9段」電腦圍棋,其意義類似當今時髦的愚弄人工智慧的「干擾遊戲」。也同時證明了,人類的圍棋智慧卻是「由上而下」(Top-Down)的「知識策略」,最終可能戰勝有史以來最強的AI人工智慧電腦圍棋─ AlphaGo Zero。