SGD(Stochastic Gradient Descent,隨機梯度下降) 每次迭代僅使用一小部分數據,通常是一個樣本或一個小批次(minibatch,要平均)來計算梯度,從而更新模型參數。
優點:
1.更新速度快,適合大規模數據。
2.可跳出鞍點或局部極小值。
應用:
1.機器學習模型(如線性迴歸、SVM、深度學習)。
2.優化非凸函數(如神經網絡)。