Adam

含有「Adam」共 60 篇內容
全部內容
發佈日期由新至舊
「別人的人生,遠看很美好,近看很殘忍。」 這句話出自經典韓劇《Doctors》,卻像是一把柔軟又犀利的刀,輕輕割開我們心中對「別人的日子」的羨慕與幻想。
Thumbnail
本單元以 CartPole 任務實作 DQN,涵蓋網路建立、Replay Buffer、ε-Greedy、Target Network 與 TD 誤差更新,並觀察獎勵曲線與收斂趨勢,體驗強化學習決策與平衡訓練過程。
微調(Fine-tuning)是將預訓練語言模型調整為特定任務專家的關鍵方法。透過任務頭與小量資料訓練,可應用於分類、問答、摘要等場景。常見技巧如凍結權重、層別學習率與 Dropout,有助提升效果並防止過擬合。
LayerNorm 是 Transformer 穩定訓練的核心,針對每筆樣本特徵正規化,不受 batch 大小限制。與殘差結構結合可防止梯度爆炸或消失,提升收斂效率。常搭配 Dropout、Warm-up、Gradient Clipping 等技巧,確保模型高效穩定學習。
盤點20世紀至今具指標性影響力的攝影大師,深入淺出介紹其攝影風格、代表作品、以及其作品背後的理念與故事,例如Karsh的戲劇性佈光、Arnold Newman的環境肖像、Richard Avedon的時尚攝影、John Sexton的私密場景捕捉等。
Thumbnail
哈囉!我是秋,好的歌單不只是背景音樂,它能瞬間把你的心情帶到另一個層次,讓旅途中的每一個場景都像電影畫面一樣,既有情感又充滿故事。 今天,我想跟大家分享我的旅行歌單!
Thumbnail
含 AI 應用內容
#旅行#分享#閱讀
第二週聚焦多層感知器(MLP)的訓練技巧:分類任務用交叉熵、迴歸用均方誤差;採用 Mini-Batch 提升效率與穩定性;權重初始化選 Xavier 或 He,避免梯度問題;透過早停與模型保存防止過擬合並保留最佳版本;加入 Dropout 增強泛化能力。
損失函數是模型學習的方向指引。分類任務用交叉熵,能精準衡量機率差異並加速收斂;迴歸任務用均方誤差,適合連續數值預測但對離群值敏感。若誤用 MSE 做分類,會導致收斂慢且準確率差。選對損失函數才能提升模型效能。
學習率決定模型每次更新權重的步伐大小,是訓練中最關鍵的超參數之一。若學習率太大,模型會震盪不收斂;太小則收斂太慢。透過梯度下降法與適當的學習率調整技巧(如 Adam、Decay、Momentum、Warm-up)可加速並穩定模型訓練。選對學習率,能讓模型快速且準確地學到最佳解。
為提升模型泛化能力,資料須切分為訓練集、驗證集與測試集。訓練集用來學習參數,驗證集用於調參與早停,測試集則專供最終評估,不能參與訓練。常見比例為 6:2:2,資料量少時可用 K-Fold 交叉驗證確保評估穩定。適當切分資料能避免模型「偷看答案」,確保學習效果真實可靠。