強化學習

含有「強化學習」共 20 篇內容
全部內容
發佈日期由新至舊
付費限定
上回在海馬迴的科學之夢I:嬰兒的記憶中聊到統計學習記憶和情景記憶,這次我們來細看史丹佛大學針對海馬迴中編碼時空和獎勵的最新發現。史丹佛的新聞稿(2025/06/11)使用了一個非常吸引人的標題「零食的位置存儲在專門的神經圖譜中」。。。 
Thumbnail
李英華-avatar-img
7 天前
希望有一天失智能獲得醫治。
A.H.-avatar-img
發文者
7 天前
李英華 一定一定會的!🤞!
付費限定
故事是從這裡開始的。科學這裡有兩組人,一群神經科學家,他們對我們腦袋裡的果凍內蘊藏的秘密很著迷。他們戳它,掃描它,觀察小火花飛來飛去,試圖弄清楚我們是如何思考,如何記住咖啡味道,如何決定躲避飛來的棒球。這群科學家描繪了經過數百萬年進化而來神經元間的私語、記憶的火花和學習的深層根源。。。
Thumbnail
❦ 莊小昕-avatar-img
2025/05/02
謝謝小a分享,所以是青出於藍勝於藍?!😆😆
A.H.-avatar-img
發文者
2025/05/03
❦ 莊小昕 對呀,對呀,是有這顏色~江山代有AI出,但能領風騷多少年? 讓我們一起再觀察觀察喔 👀~
付費限定
機器學習(Machine Learning)是一種讓電腦從資料中學習並改進表現的技術,而無需人類逐一編寫具體指令。想像一下,你教一個小孩認識「貓」和「狗」,不是直接告訴他每張圖片的答案,而是給他看許多例子,讓他自己找出規律。 這個想法最早由Arthur Sam
Thumbnail
重點整理前 OpenAI 創始成員 Andrej Karpathy 的教學影片:Deep Dive into LLMs like ChatGPT,了解 LLM(大型語言模型)的運作原理,包含 LLM 基本架構與運作機制、訓練的三大階段、未來趨勢等。
Thumbnail
林伯燊-avatar-img
2025/02/18
剛看完第一個小時,正評估要自己做筆記時,這篇文章拯救了我 😆 感謝作者這麼詳細整理! 立刻按讚收藏
蘇嘉冠 JiaKuan Su-avatar-img
發文者
2025/02/18
林伯燊 有幫助到你就太好啦 😁
這學期修了門機器學習原理,想知道AI最近在夯什麼。老師在講學習的型態時,介紹了一個有趣的型態:reinforcement learning,又稱為強化學習。 這個學習模式應用在有名的電腦圍棋,Aphago訓練,以及Chat gpt 早期的訓練。reinforcement learning很有趣的地
Thumbnail
宇牛-avatar-img
2024/09/20
AI是累積⋯
九日-avatar-img
發文者
2024/09/20
宇牛 他的累積可以像直接聯通共享,不過換個角度想,只要把母資料庫破壞,沒有備份的資料就會全部一起不見,共享有共享的風險,分開有分開的好處。
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 今天主要想討論在第11頁的Lemma 8, Yasin 展示了如何構造「超鞅 S
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
今天聊聊 Marc Abeille[1] 所著作的《Linear Thompson Sampling Revisited》[2]。 這篇文章是分析Linear Thompson Sampling的理論經典文章。 文章裡面示範了如何將 Thompson取樣, 看作是一種對參數的擾動,
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 在15頁的順間後悔分析中, 我們在B001講到上界已經替換為 「強盜算法行
「AI 代理人 AI Agent」是一個充滿魅力的概念。 我第一次接觸到Agent這個字, 是博士時期研究Bandit Algorithms [1], 在「強化學習 Reinforcement Learning」的literature中看到的。 在當初做Bandit Algo