強化學習
含有「強化學習」共 18 篇內容
全部內容
發佈日期由新至舊
世界新鮮事
2024/12/08
強化學習微調:OpenAI新技術提升AI專業領域表現
OpenAI推出的強化學習微調技術(RFT)旨在提高AI在專業領域的推理精度。這項技術結合強化學習和微調,已在法律、醫療和金融等領域顯示出顯著的應用潛力,未來有望改變多個行業的運作方式。
#
強化學習
#
人工智慧
#
微調
2
留言
世界新鮮事
2024/11/15
AlphaChip引領AI自我進化,未來科技革命的新篇章
Google DeepMind的AlphaChip技術在AI自我進化領域引發了廣泛關注,成為未來科技革命的重要標誌。AlphaChip利用強化學習來設計高效的晶片佈局,顯著縮短了晶片開發時間並提高了設計效率。這項技術不僅在晶片行業引起變革,也展示了AI自我進化的巨大潛力。
#
AlphaChip
#
AI自我進化
#
Google
1
留言
九日的文字廚房
2024/09/20
人工智慧與機器學習
這學期修了門機器學習原理,想知道AI最近在夯什麼。老師在講學習的型態時,介紹了一個有趣的型態:reinforcement learning,又稱為強化學習。 這個學習模式應用在有名的電腦圍棋,Aphago訓練,以及Chat gpt 早期的訓練。reinforcement learning很有趣的地
#
人類
#
葬送的芙莉蓮
#
AlphaGo
12
2
宇牛
2
AI是累積⋯
王啟樺的沙龍
2024/07/22
Bandit 004|如何使用鞅集中不等式分析強盜演算法?
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 今天主要想討論在第11頁的Lemma 8, Yasin 展示了如何構造「超鞅 S
#
強盜演算法
#
鞅論
#
數學
喜歡
留言
Darren的沙龍
2024/07/19
解密 AI 與資料科學 (二) : AI 的類型與實戰場景
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
#
ChatGPT
#
AlphaGo
#
人工智慧
6
留言
王啟樺的沙龍
2024/07/18
Bandit 003|如何透過擾動參數來實現最佳探索?
今天聊聊 Marc Abeille[1] 所著作的《Linear Thompson Sampling Revisited》[2]。 這篇文章是分析Linear Thompson Sampling的理論經典文章。 文章裡面示範了如何將 Thompson取樣, 看作是一種對參數的擾動,
#
強盜演算法
#
湯姆森取樣
#
樂觀原則
喜歡
留言
王啟樺的沙龍
2024/07/15
Bandit 002|信心集合在強盜算法中有什麼作用?
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 在15頁的順間後悔分析中, 我們在B001講到上界已經替換為 「強盜算法行
#
強盜演算法
#
信心集合
#
信賴區間
7
留言
王啟樺的沙龍
2024/06/30
AA 001|AI代理人能像電影中的Samantha一樣智能嗎?
「AI 代理人 AI Agent」是一個充滿魅力的概念。 我第一次接觸到Agent這個字, 是博士時期研究Bandit Algorithms [1], 在「強化學習 Reinforcement Learning」的literature中看到的。 在當初做Bandit Algo
#
AI代理人
#
強化學習
#
強盜演算法
1
留言
Learn AI 不 BI
2024/05/10
Trust Region Policy Optimization教學 - Part 1
首先定義符號: 因此我們有 其中 再定義State Avtion Value.Function、Value Function和Advantage Function分別為: 接著我定義 此外觀察上述定義,能有 因此我有以下展開 這時回顧 因此我有 結合之後得到 移項之後得到 接
#
強化學習
#
AI
#
ai
2
留言
Learn AI 不 BI
2024/05/07
Chat GPT - 用RLHF做Fine Tuning
回顧ChatGPT回答不是你要的怎麼辦?這篇文章,Chat GPT回答的結果常常不如人意,因此有個Facebook提出的技術,叫做RAG,它是提升Chat GPT回答品質的方式之一,詳細實作步驟可以參照自己做免錢Chat GPT吧。 這次我們來換個方法,今天要介紹Reinforcement Lea
#
自然語言處理
#
自然語言處理技術
#
NLP
3
留言