強盜演算法

含有「強盜演算法」共 11 篇內容
全部內容
發佈日期由新至舊
作為一名研究員,我時常面對需要構思的挑戰。構思,正如和菜頭老師在《成年人修煉手冊》中所描述,是一種深思熟慮的想像力運用。而且,構思不僅依賴靈感,它還需要訓練和方法的支持。 這篇文章將分享我如何透過兩種珍貴的靈感,進行有效的構思,並將它們應用於我的研究工作中。 ▋構思:理順與未知的靈感
專題式學習,是將所有可調動的資源集中到一個專門的問題上,從而形成自己的核心競爭力。這種方法可以將學習效果最大化,使我們在某一領域內迅速建立起專業知識。 ▋聚焦專題 劉瀾老師在《學習力30講》中提到,只有聚焦於一個專題,才能將其變成擅長領域,形成核心競爭力。當心中有了專題,看待資訊的角度會
自2017年7月來到美國讀博士, 今年2024年已經是在美國的第七年了。 2017-2022這五年, 我在美國印第安納州西拉法葉的普渡大學統計系攻讀博士學位。 當時的研究課題是線上機器學習(Online Machine Learning)以及強盜演算法(Bandit Algo
有了「啟發日曆 」,我就能清楚知道這個禮拜, 我哪些研究方向的攝取還不夠,那在週四週五的時候, 就能夠有意識的補一下進度,確保每個方向每週都有繼續下去。 繼續的力量是最重要的, 而繼續的能力也是最難培養的。 當你有能夠繼續的能力,其實各種困難都會迎刃而解,心想事成。
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 今天主要想討論在第11頁的Lemma 8, Yasin 展示了如何構造「超鞅 S
今天聊聊 Marc Abeille[1] 所著作的《Linear Thompson Sampling Revisited》[2]。 這篇文章是分析Linear Thompson Sampling的理論經典文章。 文章裡面示範了如何將 Thompson取樣, 看作是一種對參數的擾動,
今天繼續聊聊由Yasin Abbasi-Yadkori [1] 於2011年發表的文章, 《Improved Algorithms for Linear Stochastic Bandits》[2]。 在15頁的順間後悔分析中, 我們在B001講到上界已經替換為 「強盜算法行
將「未知的"真實強盜參數"與未知的"最優行動"」 替換成「已知的“估計強盜參數與已知的”強盜算法選擇的行動“」。 於是,在瞬間後悔定義中用到的未知量, 都能轉化為強盜算法設計就能知道的已知量, 那麼分析就能繼續下去。 這個思維在做理論研究的時候相當重要,
「構思,動詞,指運用心思,常指寫文章或創作藝術前所用的思考。」 「構思其實是一種想像力,在事情尚未發生之前,先想像出它完成後的模樣。 覺得這模樣還不錯,修修補補,加以完善,然後動手實際操作。」 「有兩種靈感值得珍藏。一種事你明顯感覺到可以跟著他順流而下,把所有關節都打通。 另
「AI 代理人 AI Agent」是一個充滿魅力的概念。 我第一次接觸到Agent這個字, 是博士時期研究Bandit Algorithms [1], 在「強化學習 Reinforcement Learning」的literature中看到的。 在當初做Bandit Algo