類神經網路訓練 局部最小值 (local minima) 與鞍點 (saddle point)

更新於 2024/04/30閱讀時間約 4 分鐘

之前有提到有時我們在微分之後會得到gradient = 0的值,就以為我們已經找到最小值,但其實它只是local minima。

那這一節主要想跟大家分享我們要怎麼區分是不是Local Minima。

首先,如果在我們取微分之後,得到gradient = 0的情況,我們統稱為critical point

那critical point根據圖形我們可以分成兩種類型:

  1. local minima:圖形最低點。
  2. saddle point:只是某個方向的最低點,在不同方向上其實還有路可以走。
raw-image


那要如何區分?

  1. 如上圖,可以透過圖形區分
  2. 透過Hessian區分

Hessian

計算方式:

  1. 透過泰勒展開式,我們可以將L(θ)近似於:

𝐿(θ)≈ 𝐿(θ)′+(θ−θ′)𝑇 *g+1/2 * (θ−θ′)𝑇 𝐻(θ−θ′)

此時處於critical point -> (θθ′)𝑇 *g的值為0

*g: gradient

*H: Hessian -> Hij =  (∂2/∂θiθj )*L(θ'): 對Loss函數的二次微分

  1. 計算vTHv,以及所有的eigen value λ:

a. λ> 0 -> local minima

b. λ< 0 -> local maxmum

c. λ有正有負 -> saddle point

Q: 如果算出來是saddle point呢?

A: 那我們就能透過eigen value 與vector得出可以更新的方向

假設我們得到的eigen value λ = 2, -2

我們就計算出eigen vector

接著照著eigen vector u的方向更新我們的θ,即能更新我們的參數


推導過程:

H可以替換成eigen value λ,v替換成u=[1 1]T

=> uTHu = uTλu = λ|u|2

再帶回泰勒展開式我們可以得到

𝐿(θ)= 𝐿(θ)′+1/2 * (θ−θ′)𝑇 𝐻(θ−θ′)

(θ−θ′) = u帶入

-> 𝐿(θ)= 𝐿(θ')+1/2 * uTλu

如果λ < 0 我們能得知 𝐿(θ) < 𝐿(θ')

=> θ−θ′ = u -> θ = θ′ + u

=> 推得我們可以透過+u更新θ值


Example:

假設我們設計一個function為 y = w1w2x,目標是找到最接近y= 1的答案:

我們可以得到Loss function:

L = (ŷ - ​w1w2x)2 = (1-w1w2x)2 <- 只有一筆y= 1的訓練資料

接著,我們透過微分得到gradient decent:

∂/∂w1 = 2(1-w2x)(-w2)

∂/∂w2 = 2(1-w1x)(-w1)

而我們事先知道當w1 = 0, w2 = 0時為critical point

(可以各自將w1 = 0的值帶入上述微分後的函數,結果也為0)

我們計算出Hession: 將每個向量都做2次微分

向量H = ∂*L/∂w12 ∂*L/∂w1∂w2 0 -2

∂*L/∂w2∂w1 ∂*L/∂w22 => -2 0

=> 由此得知 eigen value λ = 2,-2 => saddle point ​

如何更新參數?

eigen value λ = -2, eigen vector u = [1 1]T

=> 更新的 θ = θ' - u

*但要注意,這樣的計算量極大,通常不採用這樣的方法


那local minima與saddle point哪一個更常見?

-> 事實上Saddle point 更多。

我們可以透過檢查eigen value的正負決定

-> minimum ratio 代表還有多少路可以走 = 正的eigen value數目 / 所有的eigen value數目


以上是關於如何區分local minima與saddle point的辦法~





    avatar-img
    1會員
    37內容數
    留言0
    查看全部
    avatar-img
    發表第一個留言支持創作者!
    dab戴伯的沙龍 的其他內容
    這篇文章介紹瞭如何使用sigmoid函數來解決函數過於簡單導致的模型偏差問題,並透過尋找函數和參數來逼近precise linear curve。另外,也講述瞭如何尋找讓損失函數最小的參數以及使用batch和反覆進行Sigmoid的方法。
    機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
    static 關鍵字主要用於管理記憶體,可用在variables, methods, blocks, nested classed。加上static關鍵字的物件,會在啟動程式當下就會賦予記憶體位置給此物件,後續無論實例化多少次,記憶體的位置都相同。 以class舉例,static class 與
    在Android 編譯成功後,在out/target/product/generic會產生與系統對應的映像檔,分別是ramdisk.img關於root文件系統, system.img關於主要的包及庫, userdata.img關於用戶數據,分別對應的目錄為root, system, data映像檔簡
    主要在使用這兩種類型時常常會忘記,所以簡單整理一下內容 Stack Stack<Character> stack = new stack<>(); 屬於LIFO的特性,也就是先進後出的概念,因此所有動作通常是發生在top,可以想像成放球的瓶子,只有頂端一個開口可以拿最上面的那顆球。 可以使用
    物件導向的概念不外乎-> 封裝、繼承、多型、抽象、介面 封裝:在初始化一個class時,將內容物用private的方式包起來,而另外提供接口去給外界使用,可達到保護其資料隱私。 private: 只有自己類別的成員能夠存取 public: 任何人都可以調用 protected: 其父類與子類
    這篇文章介紹瞭如何使用sigmoid函數來解決函數過於簡單導致的模型偏差問題,並透過尋找函數和參數來逼近precise linear curve。另外,也講述瞭如何尋找讓損失函數最小的參數以及使用batch和反覆進行Sigmoid的方法。
    機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
    static 關鍵字主要用於管理記憶體,可用在variables, methods, blocks, nested classed。加上static關鍵字的物件,會在啟動程式當下就會賦予記憶體位置給此物件,後續無論實例化多少次,記憶體的位置都相同。 以class舉例,static class 與
    在Android 編譯成功後,在out/target/product/generic會產生與系統對應的映像檔,分別是ramdisk.img關於root文件系統, system.img關於主要的包及庫, userdata.img關於用戶數據,分別對應的目錄為root, system, data映像檔簡
    主要在使用這兩種類型時常常會忘記,所以簡單整理一下內容 Stack Stack<Character> stack = new stack<>(); 屬於LIFO的特性,也就是先進後出的概念,因此所有動作通常是發生在top,可以想像成放球的瓶子,只有頂端一個開口可以拿最上面的那顆球。 可以使用
    物件導向的概念不外乎-> 封裝、繼承、多型、抽象、介面 封裝:在初始化一個class時,將內容物用private的方式包起來,而另外提供接口去給外界使用,可達到保護其資料隱私。 private: 只有自己類別的成員能夠存取 public: 任何人都可以調用 protected: 其父類與子類
    你可能也想看
    Google News 追蹤
    Thumbnail
    *合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
    Thumbnail
    今年金鐘獎入圍名單日前公布,其中戲劇類的範疇對向來自封「台劇大使」的我來說,更是全情投入在為喜歡的「角色」或演員集氣。但獎項名額就是那麼多,總是會有許多遺憾,這篇就來談談我心中的幾個遺珠,單純以一個觀眾的角度,並非專業劇評,如果你有其他想法也歡迎留言一起討論。 姚淳耀《我願意》:姚淳耀在《我願意》
    精緻澱粉是什麼 精緻澱粉是現代人飲食中非常普遍的一種食物成分。然而,長期以來,關於精緻澱粉的食用對身體健康的影響一直存在爭議。本文旨在介紹精緻澱粉的形成、種類、影響以及與非精緻澱粉的比較,以幫助讀者更好地了解這一食物成分。 精緻澱粉的形成 精緻澱粉是由天然的澱粉經過加工而成的。在加工過程中,澱粉的結
    Thumbnail
    台積電是台灣的護國神山,更狂的是,它是全世界主要國家的國防戰略的爭取夥伴。美總統拜登出面,APPLE庫克出面,MSFT出面。Samsuang 與Intel 多麼怕它。
    Thumbnail
    這裡先整理一下前面所談的,關於一人公司常出現的幾個挑戰: 上述這些挑戰是實務面可能會遇到的情況,這篇則會談論另外一些面向與因素。這些因素可以概略地分成幾點: 通常來講,這幾種情況也是我們會特別容易在工作中感到疲累的情況。在這篇中,我會先試著談論前三種因素。 第三種是有別於上兩者的另一種陷阱。
    Thumbnail
    金錢觀是個很有趣的東西,有些人非常富有卻很小氣吝嗇,有些人雖然貧窮,卻很敢大把花錢,想更深入了解自己的金錢觀嗎?最近日網michill就有一則心理測驗,可以透過選擇喜歡的水果,探究你的金錢觀與價值觀,快來一起看看吧! Q:現在來到農場,你最想摘哪一種水果呢? A: 1.櫻桃 2.草莓 3.奇異果 4
    Thumbnail
    自從深度學習於2012年開始受到關注後,全世界有非常多的專家學者致力於改良它,也因此造就了許多的創新以及突破。今天我們就來談談深度學習近幾年來一個非常熱門的新主題”生成對抗網路”GAN(*),這是2014年由當時為蒙特婁大學博士生的Ian Goodfellow所提出之類神經網路。
    Thumbnail
    這篇文章從類神經網路的起源,也就是單神經元的感知器。簡單的感知器迭代演算法使單神經元可以學習,但卻無法學習超過非線性,如 XOR 的資料分布。另外,本文還介紹了 Logistic regression,藉由透過非線性轉換來使線性輸出近似於機率分佈。最後則以一場大師賭局結束(SVM vs NN)。
    Thumbnail
    本文提到如何以類神經網路為主的深度學習方法,來進行物體偵測。文中包括基礎的物體偵測簡介:如影像問題分類,影像處理和傳統非類神經網路為主的物體偵測方法。這些傳統方法,仍可以在類神經網路的方法中找到其應用。最後簡略敘述當前使用深度卷積網路作為物體偵測的主要研究方向,並對學術界常用的訓練資料集做分析介紹。
    Thumbnail
    寫文章寫小說,要下功夫,是真的,不努力不行的,但所謂努力究竟是哪一種努力呢? 許多許多年之後,那次經驗始終是我在理解各種形式的創作,遇到與人有理說不清的憤恨,或是反省自己時,重要的一次神諭之夜......
    Thumbnail
    在此篇文章終將會簡述機械學習的發展,簡介深度學習以 Sequence to Sequence 為架構,並在多場機械翻譯的學術年會,獲得成績斐然的結果。在本文中,會粗略介紹 Sequence to Sequence 架構並以 google 在 2017 對Seq2Seq 所進行的大規模參數。
    Thumbnail
    *合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
    Thumbnail
    今年金鐘獎入圍名單日前公布,其中戲劇類的範疇對向來自封「台劇大使」的我來說,更是全情投入在為喜歡的「角色」或演員集氣。但獎項名額就是那麼多,總是會有許多遺憾,這篇就來談談我心中的幾個遺珠,單純以一個觀眾的角度,並非專業劇評,如果你有其他想法也歡迎留言一起討論。 姚淳耀《我願意》:姚淳耀在《我願意》
    精緻澱粉是什麼 精緻澱粉是現代人飲食中非常普遍的一種食物成分。然而,長期以來,關於精緻澱粉的食用對身體健康的影響一直存在爭議。本文旨在介紹精緻澱粉的形成、種類、影響以及與非精緻澱粉的比較,以幫助讀者更好地了解這一食物成分。 精緻澱粉的形成 精緻澱粉是由天然的澱粉經過加工而成的。在加工過程中,澱粉的結
    Thumbnail
    台積電是台灣的護國神山,更狂的是,它是全世界主要國家的國防戰略的爭取夥伴。美總統拜登出面,APPLE庫克出面,MSFT出面。Samsuang 與Intel 多麼怕它。
    Thumbnail
    這裡先整理一下前面所談的,關於一人公司常出現的幾個挑戰: 上述這些挑戰是實務面可能會遇到的情況,這篇則會談論另外一些面向與因素。這些因素可以概略地分成幾點: 通常來講,這幾種情況也是我們會特別容易在工作中感到疲累的情況。在這篇中,我會先試著談論前三種因素。 第三種是有別於上兩者的另一種陷阱。
    Thumbnail
    金錢觀是個很有趣的東西,有些人非常富有卻很小氣吝嗇,有些人雖然貧窮,卻很敢大把花錢,想更深入了解自己的金錢觀嗎?最近日網michill就有一則心理測驗,可以透過選擇喜歡的水果,探究你的金錢觀與價值觀,快來一起看看吧! Q:現在來到農場,你最想摘哪一種水果呢? A: 1.櫻桃 2.草莓 3.奇異果 4
    Thumbnail
    自從深度學習於2012年開始受到關注後,全世界有非常多的專家學者致力於改良它,也因此造就了許多的創新以及突破。今天我們就來談談深度學習近幾年來一個非常熱門的新主題”生成對抗網路”GAN(*),這是2014年由當時為蒙特婁大學博士生的Ian Goodfellow所提出之類神經網路。
    Thumbnail
    這篇文章從類神經網路的起源,也就是單神經元的感知器。簡單的感知器迭代演算法使單神經元可以學習,但卻無法學習超過非線性,如 XOR 的資料分布。另外,本文還介紹了 Logistic regression,藉由透過非線性轉換來使線性輸出近似於機率分佈。最後則以一場大師賭局結束(SVM vs NN)。
    Thumbnail
    本文提到如何以類神經網路為主的深度學習方法,來進行物體偵測。文中包括基礎的物體偵測簡介:如影像問題分類,影像處理和傳統非類神經網路為主的物體偵測方法。這些傳統方法,仍可以在類神經網路的方法中找到其應用。最後簡略敘述當前使用深度卷積網路作為物體偵測的主要研究方向,並對學術界常用的訓練資料集做分析介紹。
    Thumbnail
    寫文章寫小說,要下功夫,是真的,不努力不行的,但所謂努力究竟是哪一種努力呢? 許多許多年之後,那次經驗始終是我在理解各種形式的創作,遇到與人有理說不清的憤恨,或是反省自己時,重要的一次神諭之夜......
    Thumbnail
    在此篇文章終將會簡述機械學習的發展,簡介深度學習以 Sequence to Sequence 為架構,並在多場機械翻譯的學術年會,獲得成績斐然的結果。在本文中,會粗略介紹 Sequence to Sequence 架構並以 google 在 2017 對Seq2Seq 所進行的大規模參數。