Saddle point

更新於 發佈於 閱讀時間約 1 分鐘

saddle point 鞍點

圖中函數為 z=x^2-y^2

既不是局部極小值,也不是局部極大值

在鞍點,梯度向量的大小趨近於零,導致參數更新的幅度變得極小,算法可能「卡住」以下有幾種方法可改進

1.使用 隨機梯度下降(SGD)

2.引入「動量」Momentum 概念,例如adam

3.Hessian 矩陣判斷臨界點

4.動態調整學習率  


raw-image


avatar-img
0會員
33內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Princend的沙龍 的其他內容
梯度下降是一種優化演算法,用來最小化損失函數。 透過計算梯度(偏導數),找出參數更新方向。 公式為 θ_(t+1)=θ_t−η⋅∇ J(θ) 圖中的learning rate 為 0.05 可以發現到山谷的時候收斂速度較為緩慢
資料前處理為了避免garbage in, garbage out 除了one-hot encoding , ordinal encoding 還有target encoding 但是有時候算出平均值,會對資料處理沒幫助 (無法區分班級) 那就替換成標準差吧 
輸入層:接收數據,對應特徵值,是網絡的入口。 隱藏層:學習數據的抽象特徵,引入非線性,處理複雜模式。 輸出層:產生結果,將特徵轉換為預測值(regression)或分類(classification)結果。 陳縕儂老師說過 中間的隱藏層通常不會是線性的 如果全部都是線性 那任意交換隱藏層
manim ## 第一單元:基礎介紹與環境設置 ### 1. 單元目標 * 了解 Manim 是什麼以及其應用場景。 * 掌握如何安裝 Manim 並運行基礎腳本。 ### 2. Manim 簡介    :::info    什麼是 Manim?    Manim 是一個用 Py
梯度下降是一種優化演算法,用來最小化損失函數。 透過計算梯度(偏導數),找出參數更新方向。 公式為 θ_(t+1)=θ_t−η⋅∇ J(θ) 圖中的learning rate 為 0.05 可以發現到山谷的時候收斂速度較為緩慢
資料前處理為了避免garbage in, garbage out 除了one-hot encoding , ordinal encoding 還有target encoding 但是有時候算出平均值,會對資料處理沒幫助 (無法區分班級) 那就替換成標準差吧 
輸入層:接收數據,對應特徵值,是網絡的入口。 隱藏層:學習數據的抽象特徵,引入非線性,處理複雜模式。 輸出層:產生結果,將特徵轉換為預測值(regression)或分類(classification)結果。 陳縕儂老師說過 中間的隱藏層通常不會是線性的 如果全部都是線性 那任意交換隱藏層
manim ## 第一單元:基礎介紹與環境設置 ### 1. 單元目標 * 了解 Manim 是什麼以及其應用場景。 * 掌握如何安裝 Manim 並運行基礎腳本。 ### 2. Manim 簡介    :::info    什麼是 Manim?    Manim 是一個用 Py
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 1.2.7 十九世紀的尾聲 一 函數概念的發展不可能終結,踏入公元廿一世紀,數學
Thumbnail
這一節談的是向量的定義,以及如何運用向量來建立模擬物體運動時,關於位置和速度間的關係式。
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5弦的振動 八 在關於振動弦通解的這場論爭之中,函數概念默默地向兩個方面推前了一大步。 一方面,特朗貝爾和歐拉等擴大了
使用向量來處理問題有很多好處,其中一個好處,就是可以減少變數的數量。在這節中,會用一個簡單的例子來介紹,使用向量跟不使用向量,對變數的數量會有什麼樣的影響。
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5弦的振動  七 雖然論爭沒有得出任何定論,但對函數概念的演化卻影嚮頗深。 在這次歷時多年的論爭中,函數概念得以擴大而包括
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 五 特朗貝爾依循當時數學界對函數的普遍理解,視「函數」為任一分析式。 但這時的歐拉宣稱函數不必是正常意義下的
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 三 1755年,歐拉改變了主意,在《微分學原理》(Institutiones calculi differen
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法  三 有些讀者大概都知道,微積分學有兩個分科﹕一為微分學 (differential calculus),一為積分學 (integ
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 1.2.7 十九世紀的尾聲 一 函數概念的發展不可能終結,踏入公元廿一世紀,數學
Thumbnail
這一節談的是向量的定義,以及如何運用向量來建立模擬物體運動時,關於位置和速度間的關係式。
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5弦的振動 八 在關於振動弦通解的這場論爭之中,函數概念默默地向兩個方面推前了一大步。 一方面,特朗貝爾和歐拉等擴大了
使用向量來處理問題有很多好處,其中一個好處,就是可以減少變數的數量。在這節中,會用一個簡單的例子來介紹,使用向量跟不使用向量,對變數的數量會有什麼樣的影響。
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5弦的振動  七 雖然論爭沒有得出任何定論,但對函數概念的演化卻影嚮頗深。 在這次歷時多年的論爭中,函數概念得以擴大而包括
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 五 特朗貝爾依循當時數學界對函數的普遍理解,視「函數」為任一分析式。 但這時的歐拉宣稱函數不必是正常意義下的
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 三 1755年,歐拉改變了主意,在《微分學原理》(Institutiones calculi differen
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法  三 有些讀者大概都知道,微積分學有兩個分科﹕一為微分學 (differential calculus),一為積分學 (integ