Saddle point

更新於 2024/12/03閱讀時間約 1 分鐘

saddle point 鞍點

圖中函數為 z=x^2-y^2

既不是局部極小值,也不是局部極大值

在鞍點,梯度向量的大小趨近於零,導致參數更新的幅度變得極小,算法可能「卡住」以下有幾種方法可改進

1.使用 隨機梯度下降(SGD)

2.引入「動量」Momentum 概念,例如adam

3.Hessian 矩陣判斷臨界點

4.動態調整學習率  


raw-image


avatar-img
0會員
22內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Princend的沙龍 的其他內容
梯度下降是一種優化演算法,用來最小化損失函數。 透過計算梯度(偏導數),找出參數更新方向。 公式為 θ_(t+1)=θ_t−η⋅∇ J(θ) 圖中的learning rate 為 0.05 可以發現到山谷的時候收斂速度較為緩慢
資料前處理為了避免garbage in, garbage out 除了one-hot encoding , ordinal encoding 還有target encoding 但是有時候算出平均值,會對資料處理沒幫助 (無法區分班級) 那就替換成標準差吧 
輸入層:接收數據,對應特徵值,是網絡的入口。 隱藏層:學習數據的抽象特徵,引入非線性,處理複雜模式。 輸出層:產生結果,將特徵轉換為預測值(regression)或分類(classification)結果。 陳縕儂老師說過 中間的隱藏層通常不會是線性的 如果全部都是線性 那任意交換隱藏層
manim ## 第一單元:基礎介紹與環境設置 ### 1. 單元目標 * 了解 Manim 是什麼以及其應用場景。 * 掌握如何安裝 Manim 並運行基礎腳本。 ### 2. Manim 簡介    :::info    什麼是 Manim?    Manim 是一個用 Py
梯度下降是一種優化演算法,用來最小化損失函數。 透過計算梯度(偏導數),找出參數更新方向。 公式為 θ_(t+1)=θ_t−η⋅∇ J(θ) 圖中的learning rate 為 0.05 可以發現到山谷的時候收斂速度較為緩慢
資料前處理為了避免garbage in, garbage out 除了one-hot encoding , ordinal encoding 還有target encoding 但是有時候算出平均值,會對資料處理沒幫助 (無法區分班級) 那就替換成標準差吧 
輸入層:接收數據,對應特徵值,是網絡的入口。 隱藏層:學習數據的抽象特徵,引入非線性,處理複雜模式。 輸出層:產生結果,將特徵轉換為預測值(regression)或分類(classification)結果。 陳縕儂老師說過 中間的隱藏層通常不會是線性的 如果全部都是線性 那任意交換隱藏層
manim ## 第一單元:基礎介紹與環境設置 ### 1. 單元目標 * 了解 Manim 是什麼以及其應用場景。 * 掌握如何安裝 Manim 並運行基礎腳本。 ### 2. Manim 簡介    :::info    什麼是 Manim?    Manim 是一個用 Py
你可能也想看
Google News 追蹤
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 1.2.7 十九世紀的尾聲 一 函數概念的發展不可能終結,踏入公元廿一世紀,數學
Thumbnail
這一節談的是向量的定義,以及如何運用向量來建立模擬物體運動時,關於位置和速度間的關係式。
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5弦的振動 八 在關於振動弦通解的這場論爭之中,函數概念默默地向兩個方面推前了一大步。 一方面,特朗貝爾和歐拉等擴大了
使用向量來處理問題有很多好處,其中一個好處,就是可以減少變數的數量。在這節中,會用一個簡單的例子來介紹,使用向量跟不使用向量,對變數的數量會有什麼樣的影響。
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5弦的振動  七 雖然論爭沒有得出任何定論,但對函數概念的演化卻影嚮頗深。 在這次歷時多年的論爭中,函數概念得以擴大而包括
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 五 特朗貝爾依循當時數學界對函數的普遍理解,視「函數」為任一分析式。 但這時的歐拉宣稱函數不必是正常意義下的
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 三 1755年,歐拉改變了主意,在《微分學原理》(Institutiones calculi differen
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法  三 有些讀者大概都知道,微積分學有兩個分科﹕一為微分學 (differential calculus),一為積分學 (integ
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 1.2.7 十九世紀的尾聲 一 函數概念的發展不可能終結,踏入公元廿一世紀,數學
Thumbnail
這一節談的是向量的定義,以及如何運用向量來建立模擬物體運動時,關於位置和速度間的關係式。
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5弦的振動 八 在關於振動弦通解的這場論爭之中,函數概念默默地向兩個方面推前了一大步。 一方面,特朗貝爾和歐拉等擴大了
使用向量來處理問題有很多好處,其中一個好處,就是可以減少變數的數量。在這節中,會用一個簡單的例子來介紹,使用向量跟不使用向量,對變數的數量會有什麼樣的影響。
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5弦的振動  七 雖然論爭沒有得出任何定論,但對函數概念的演化卻影嚮頗深。 在這次歷時多年的論爭中,函數概念得以擴大而包括
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 五 特朗貝爾依循當時數學界對函數的普遍理解,視「函數」為任一分析式。 但這時的歐拉宣稱函數不必是正常意義下的
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 三 1755年,歐拉改變了主意,在《微分學原理》(Institutiones calculi differen
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法  三 有些讀者大概都知道,微積分學有兩個分科﹕一為微分學 (differential calculus),一為積分學 (integ