強化學習
含有「強化學習」共 20 篇內容
全部內容
發佈日期由新至舊
付費限定
A.H.科普(pScience)
2025/06/12
海馬迴的科學之夢II: 時空地圖與獎勵地圖
上回在海馬迴的科學之夢I:嬰兒的記憶中聊到統計學習記憶和情景記憶,這次我們來細看史丹佛大學針對海馬迴中編碼時空和獎勵的最新發現。史丹佛的新聞稿(2025/06/11)使用了一個非常吸引人的標題「零食的位置存儲在專門的神經圖譜中」。。。
#
海馬迴
#
獎勵地圖
#
時空地圖
23
4
李英華
7 天前
2
希望有一天失智能獲得醫治。
2
A.H.
發文者
7 天前
2
李英華 一定一定會的!🤞!
2
付費限定
A.H.科普(pScience)
2025/05/02
AI向神經科學拜師學藝的故事
故事是從這裡開始的。科學這裡有兩組人,一群神經科學家,他們對我們腦袋裡的果凍內蘊藏的秘密很著迷。他們戳它,掃描它,觀察小火花飛來飛去,試圖弄清楚我們是如何思考,如何記住咖啡味道,如何決定躲避飛來的棒球。這群科學家描繪了經過數百萬年進化而來神經元間的私語、記憶的火花和學習的深層根源。。。
#
科學家AI抱抱
#
神經科學
#
科學史
26
2
❦ 莊小昕
2025/05/02
2
謝謝小a分享,所以是青出於藍勝於藍?!😆😆
2
A.H.
發文者
2025/05/03
1
❦ 莊小昕 對呀,對呀,是有這顏色~江山代有AI出,但能領風騷多少年? 讓我們一起再觀察觀察喔 👀~
1
付費限定
TN科技筆記(TechNotes)的沙龍
2025/03/09
iPAS-初級AI應用規劃師-機器學習基本原理
機器學習(Machine Learning)是一種讓電腦從資料中學習並改進表現的技術,而無需人類逐一編寫具體指令。想像一下,你教一個小孩認識「貓」和「狗」,不是直接告訴他每張圖片的答案,而是給他看許多例子,讓他自己找出規律。 這個想法最早由Arthur Sam
#
人工智慧
#
AI
#
AI應用規劃師
2
留言
嘉冠談 AI
2025/02/17
跟著前 OpenAI 創始成員學習 ChatGPT 與 LLM 的運作原理
重點整理前 OpenAI 創始成員 Andrej Karpathy 的教學影片:Deep Dive into LLMs like ChatGPT,了解 LLM(大型語言模型)的運作原理,包含 LLM 基本架構與運作機制、訓練的三大階段、未來趨勢等。
#
AI
#
LLM
#
OpenAI
6
2
林伯燊
2025/02/18
喜歡
剛看完第一個小時,正評估要自己做筆記時,這篇文章拯救了我 😆 感謝作者這麼詳細整理! 立刻按讚收藏
喜歡
蘇嘉冠 JiaKuan Su
發文者
2025/02/18
喜歡
林伯燊 有幫助到你就太好啦 😁
喜歡
九日的文字廚房
2024/09/20
人工智慧與機器學習
這學期修了門機器學習原理,想知道AI最近在夯什麼。老師在講學習的型態時,介紹了一個有趣的型態:reinforcement learning,又稱為強化學習。 這個學習模式應用在有名的電腦圍棋,Aphago訓練,以及Chat gpt 早期的訓練。reinforcement learning很有趣的地
#
人類
#
葬送的芙莉蓮
#
AlphaGo
12
2
宇牛
2024/09/20
2
AI是累積⋯
2
九日
發文者
2024/09/20
1
宇牛 他的累積可以像直接聯通共享,不過換個角度想,只要把母資料庫破壞,沒有備份的資料就會全部一起不見,共享有共享的風險,分開有分開的好處。
1
王啟樺的沙龍
2024/07/22
Bandit 004|如何使用鞅集中不等式分析強盜演算法?
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 今天主要想討論在第11頁的Lemma 8, Yasin 展示了如何構造「超鞅 S
#
強盜演算法
#
鞅論
#
數學
喜歡
留言
Darren的沙龍
2024/07/19
解密 AI 與資料科學 (二) : AI 的類型與實戰場景
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
#
ChatGPT
#
AlphaGo
#
人工智慧
6
留言
王啟樺的沙龍
2024/07/18
Bandit 003|如何透過擾動參數來實現最佳探索?
今天聊聊 Marc Abeille[1] 所著作的《Linear Thompson Sampling Revisited》[2]。 這篇文章是分析Linear Thompson Sampling的理論經典文章。 文章裡面示範了如何將 Thompson取樣, 看作是一種對參數的擾動,
#
強盜演算法
#
湯姆森取樣
#
樂觀原則
喜歡
留言
王啟樺的沙龍
2024/07/15
Bandit 002|信心集合在強盜算法中有什麼作用?
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 在15頁的順間後悔分析中, 我們在B001講到上界已經替換為 「強盜算法行
#
強盜演算法
#
信心集合
#
信賴區間
7
留言
王啟樺的沙龍
2024/06/30
AA 001|AI代理人能像電影中的Samantha一樣智能嗎?
「AI 代理人 AI Agent」是一個充滿魅力的概念。 我第一次接觸到Agent這個字, 是博士時期研究Bandit Algorithms [1], 在「強化學習 Reinforcement Learning」的literature中看到的。 在當初做Bandit Algo
#
AI代理人
#
強化學習
#
強盜演算法
2
留言