saddle point 鞍點
圖中函數為 z=x^2-y^2
既不是局部極小值,也不是局部極大值
在鞍點,梯度向量的大小趨近於零,導致參數更新的幅度變得極小,算法可能「卡住」以下有幾種方法可改進
1.使用 隨機梯度下降(SGD)
2.引入「動量」Momentum 概念,例如adam
3.Hessian 矩陣判斷臨界點
4.動態調整學習率