AlphaGo

含有「AlphaGo」共 65 篇內容
全部內容
發佈日期由新至舊
Q-Learning 是典型 Off-policy TD 控制演算法,核心在最大化未來回報。更新 Q 值時取下一狀態的最大估計值,即使當下行動非最優,仍能收斂至最優策略。適合自駕、金融、博弈等需高效率探索的任務。
蒙地卡羅控制(MC Control)透過自我對弈與 ε-Greedy 探索,不斷更新 Q 值並改進策略,最終逼近最優策略。AlphaGo 早期即結合此方法與監督學習,從人類棋譜起步,再靠自我強化進化,展現 AI 從經驗中學習策略的威力。
《強化學習 —— AI 的決策與進化》系統性介紹RL理論、演算法與應用,從MDP、Q-Learning到DQN、PPO與多智能體學習,並涵蓋自駕車、金融、工業等實戰案例,培養AI自主決策與未來應用能力。
Thumbnail
本單元總結深度強化學習核心概念,涵蓋 Q-Learning、DQN、探索與利用、Actor-Critic、AlphaGo、MARL 與 Gym 實作,並以 CartPole 平衡木示範 DQN 訓練流程,強調從理論到實踐的完整學習路徑。
AlphaGo 結合策略網路、價值網路與蒙地卡羅樹搜尋(MCTS),實現精準決策與長期規劃。透過人類棋譜、自我對弈與強化學習多階段訓練,超越人類水準,並啟發 AlphaGo Zero、AlphaZero、MuZero 等通用強化學習架構,推動 AI 向自學與跨領域應用發展。
人工智慧源於20世紀初圖靈等人對計算與神經網絡的理論探索。1956年達特茅斯會議正式命名「人工智慧」,符號推理與專家系統興起,卻在1980年代因過度期待與技術瓶頸陷入「AI 冬天」。1990年代資料驅動與統計學習崛起,1997年深藍擊敗世界棋王成為象徵。
Thumbnail
含 AI 應用內容
#人工智慧#OpenAI#學習
「人工智慧 +1」自學 Day3:強化學習 (Reinforcement Learning) 1. 強化學習的核心概念:訓練 「強化學習」是機器學習中的第三種。前兩者是監督式學習、非監督式學習。強化學習與這兩者都不同,與其說是學習,更合適的概念是「訓練」:訓練模型建立特定的決策及採取行動模式。
含 AI 應用內容
#AI#ChatGPT#Gemini
AI 如數位偵探,透過演算法與資料集辨識模式,精準預測你的需求。
Thumbnail
你以為AI只能寫寫文章、畫畫圖?那你就太小看它了!Google DeepMind最近丟出了一個震撼彈,發表了他們的第三代「世界模型」——Genie 3。這可不是普通的AI,它正在悄悄改變我們對「現實」的定義,甚至為未來AI的發展,開闢了一條前所未有的「神之路」。
Thumbnail
人工智慧是現在非常多人討論的議題,那麼人工智慧到底是什麼?又應該如何去定義它呢? 在現在這個時間點,有很多的東西都自稱為人工智慧,例如各種的智慧家電和3C產品,但是其實很多家電都沒有人工智慧的功能。這就跟原子筆一樣,在以前原子、原子彈、核能很紅的時候,商家把原子這個名詞直接用在新賣的筆上,但其實一