梯度下降是一種優化演算法,用來最小化損失函數。 透過計算梯度(偏導數),找出參數更新方向。 公式為 θ_(t+1)=θ_t−η⋅∇ J(θ)
圖中的learning rate 為 0.05 可以發現到山谷的時候收斂速度較為緩慢