強盜演算法
含有「強盜演算法」共 11 篇內容
全部內容
發佈日期由新至舊
王啟樺的沙龍
2024/09/23
【如何有效構思:從理論到實踐的靈感探索】
作為一名研究員,我時常面對需要構思的挑戰。構思,正如和菜頭老師在《成年人修煉手冊》中所描述,是一種深思熟慮的想像力運用。而且,構思不僅依賴靈感,它還需要訓練和方法的支持。 這篇文章將分享我如何透過兩種珍貴的靈感,進行有效的構思,並將它們應用於我的研究工作中。 ▋構思:理順與未知的靈感
#
構思
#
有效構思
#
靈感
1
留言
王啟樺的沙龍
2024/07/28
【專題式學習:快速提升核心競爭力的方法】── 1. 聚焦專題 2. 專題選擇 3. 系統化輸入與輸出
專題式學習,是將所有可調動的資源集中到一個專門的問題上,從而形成自己的核心競爭力。這種方法可以將學習效果最大化,使我們在某一領域內迅速建立起專業知識。 ▋聚焦專題 劉瀾老師在《學習力30講》中提到,只有聚焦於一個專題,才能將其變成擅長領域,形成核心競爭力。當心中有了專題,看待資訊的角度會
#
專題學習
#
聚焦
#
學習力
2
留言
王啟樺的沙龍
2024/07/26
【在美國的七年:從學術到探索自我】 ── 1. 博士求學之旅 2. 遠端實習經驗 3. 發現自我適性
自2017年7月來到美國讀博士, 今年2024年已經是在美國的第七年了。 2017-2022這五年, 我在美國印第安納州西拉法葉的普渡大學統計系攻讀博士學位。 當時的研究課題是線上機器學習(Online Machine Learning)以及強盜演算法(Bandit Algo
#
美國研究所
#
博士班
#
碩博士
5
留言
王啟樺的沙龍
2024/07/24
J028|如何把“持續下去”的心態轉變為“今天也繼續”?
有了「啟發日曆 」,我就能清楚知道這個禮拜, 我哪些研究方向的攝取還不夠,那在週四週五的時候, 就能夠有意識的補一下進度,確保每個方向每週都有繼續下去。 繼續的力量是最重要的, 而繼續的能力也是最難培養的。 當你有能夠繼續的能力,其實各種困難都會迎刃而解,心想事成。
#
閱讀
#
寫作
#
寫作日曆
3
留言
王啟樺的沙龍
2024/07/22
Bandit 004|如何使用鞅集中不等式分析強盜演算法?
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 今天主要想討論在第11頁的Lemma 8, Yasin 展示了如何構造「超鞅 S
#
強盜演算法
#
鞅論
#
數學
喜歡
留言
王啟樺的沙龍
2024/07/18
Bandit 003|如何透過擾動參數來實現最佳探索?
今天聊聊 Marc Abeille[1] 所著作的《Linear Thompson Sampling Revisited》[2]。 這篇文章是分析Linear Thompson Sampling的理論經典文章。 文章裡面示範了如何將 Thompson取樣, 看作是一種對參數的擾動,
#
強盜演算法
#
湯姆森取樣
#
樂觀原則
喜歡
留言
王啟樺的沙龍
2024/07/15
Bandit 002|信心集合在強盜算法中有什麼作用?
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 在15頁的順間後悔分析中, 我們在B001講到上界已經替換為 「強盜算法行
#
強盜演算法
#
信心集合
#
信賴區間
7
留言
王啟樺的沙龍
2024/07/14
Bandit 001|如何將未知量轉化為已知量?
將「未知的"真實強盜參數"與未知的"最優行動"」 替換成「已知的“估計強盜參數與已知的”強盜算法選擇的行動“」。 於是,在瞬間後悔定義中用到的未知量, 都能轉化為強盜算法設計就能知道的已知量, 那麼分析就能繼續下去。 這個思維在做理論研究的時候相當重要,
#
強盜演算法
#
後悔分析
#
電腦科學
7
留言
王啟樺的沙龍
2024/07/14
D017|如何利用構思提升研究效率?
「構思,動詞,指運用心思,常指寫文章或創作藝術前所用的思考。」 「構思其實是一種想像力,在事情尚未發生之前,先想像出它完成後的模樣。 覺得這模樣還不錯,修修補補,加以完善,然後動手實際操作。」 「有兩種靈感值得珍藏。一種事你明顯感覺到可以跟著他順流而下,把所有關節都打通。 另
#
構思
#
學習
#
研究所
1
留言
王啟樺的沙龍
2024/06/30
AA 001|AI代理人能像電影中的Samantha一樣智能嗎?
「AI 代理人 AI Agent」是一個充滿魅力的概念。 我第一次接觸到Agent這個字, 是博士時期研究Bandit Algorithms [1], 在「強化學習 Reinforcement Learning」的literature中看到的。 在當初做Bandit Algo
#
AI代理人
#
強化學習
#
強盜演算法
1
留言