SGD(Stochastic Gradient Descent,隨機梯度下降) 每次迭代僅使用一小部分數據,通常是一個樣本或一個小批次(minibatch,要平均)來計算梯度,從而更新模型參數。優點: 1.更新速度快,適合大規模數據。2.可跳出鞍點或局部極小值。 應用: 1.機器學習模型(如線性迴歸、SVM、深度學習)。2.優化非凸函數(如神經網絡)。