強化學習

含有「強化學習」共 17 篇內容

全部內容

發佈日期由新至舊

跟著前 OpenAI 創始成員學習 ChatGPT 與 LLM 的運作原理

重點整理前 OpenAI 創始成員 Andrej Karpathy 的教學影片：Deep Dive into LLMs like ChatGPT，了解 LLM（大型語言模型）的運作原理，包含 LLM 基本架構與運作機制、訓練的三大階段、未來趨勢等。

#AI #LLM #OpenAI

剛看完第一個小時，正評估要自己做筆記時，這篇文章拯救了我 😆 感謝作者這麼詳細整理! 立刻按讚收藏

九日的文字廚房

人工智慧與機器學習

這學期修了門機器學習原理，想知道AI最近在夯什麼。老師在講學習的型態時，介紹了一個有趣的型態：reinforcement learning，又稱為強化學習。這個學習模式應用在有名的電腦圍棋，Aphago訓練，以及Chat gpt 早期的訓練。reinforcement learning很有趣的地

#人類 #葬送的芙莉蓮 #AlphaGo

AI是累積⋯

王啟樺的沙龍

Bandit 004｜如何使用鞅集中不等式分析強盜演算法？

今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章，《Improved Algorithms for Linear Stochastic Bandits》[2]。今天主要想討論在第11頁的Lemma 8， Yasin 展示了如何構造「超鞅 S

#強盜演算法 #鞅論 #數學

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT #AlphaGo #人工智慧

王啟樺的沙龍

Bandit 003｜如何透過擾動參數來實現最佳探索？

今天聊聊 Marc Abeille[1] 所著作的《Linear Thompson Sampling Revisited》[2]。這篇文章是分析Linear Thompson Sampling的理論經典文章。文章裡面示範了如何將 Thompson取樣，看作是一種對參數的擾動，

#強盜演算法 #湯姆森取樣 #樂觀原則

王啟樺的沙龍

Bandit 002｜信心集合在強盜算法中有什麼作用？

今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章，《Improved Algorithms for Linear Stochastic Bandits》[2]。在15頁的順間後悔分析中，我們在B001講到上界已經替換為「強盜算法行

#強盜演算法 #信心集合 #信賴區間

王啟樺的沙龍

AA 001｜AI代理人能像電影中的Samantha一樣智能嗎？

「AI 代理人 AI Agent」是一個充滿魅力的概念。我第一次接觸到Agent這個字，是博士時期研究Bandit Algorithms [1]，在「強化學習 Reinforcement Learning」的literature中看到的。在當初做Bandit Algo

#AI代理人 #強化學習 #強盜演算法

Learn AI 不 BI

Trust Region Policy Optimization教學 - Part 1

首先定義符號：因此我們有其中再定義State Avtion Value.Function、Value Function和Advantage Function分別為：接著我定義此外觀察上述定義，能有因此我有以下展開這時回顧因此我有結合之後得到移項之後得到接

#強化學習 #AI #ai

Learn AI 不 BI

Chat GPT - 用RLHF做Fine Tuning

回顧ChatGPT回答不是你要的怎麼辦？這篇文章，Chat GPT回答的結果常常不如人意，因此有個Facebook提出的技術，叫做RAG，它是提升Chat GPT回答品質的方式之一，詳細實作步驟可以參照自己做免錢Chat GPT吧。這次我們來換個方法，今天要介紹Reinforcement Lea

#自然語言處理 #自然語言處理技術 #NLP

Learn AI 不 BI

LearnAI頻道宗旨

這個頻道將提供以下服務：深入介紹各種Machine Learning技術深入介紹各種Deep Learning技術深入介紹各種Reinforcement Learning技術深入介紹Probabilistic Graphical Model技術不定時提供讀書筆記讓我們一起在未

#學習 #職場 #AI人工智慧

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌