GM 004|你知道Transformers能成為統計人員嗎?

閱讀時間約 2 分鐘

今天聊一聊由 Yu Bai [1] 於2023年發表的文章,


《Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection》[2]。


本文章的標題很有意思,直接翻譯是「作為統計人員的Transformers」。


為什麼這樣說呢?


因為這篇文章探討語言模型的「脈絡內學習 In-context Learning」現象,


並且討論語言模型是否能勝任「統計人員 Statistician」的任務。


那麼統計人員的任務是什麼呢?


在這篇文章中,就是做「嶺回歸 Ridge Regression」[3],


做「LASSO Regression」[4]的能力。


而這篇文章還是一篇理論文章,


其使用的理論工具是所謂的「脈絡內梯度下降 In-Context Gradient Descent」。


能做梯度下降,代表可以寫「損失函數 Loss Function」[5],


而這個損失函數是基於Transformers[6]的性質寫出來的,


在文章的附錄D,非常值得統計學背景的研究生學習。


在這個Transformer的世界裡,


輸入的數據不再是傳統的「向量形式」的輸入數據,


而是從文本出發,進一步轉換為「符元 Token」[7],


然後轉為「向量形式」的表達,


再接入目前的深度學習架構。


Reference

[1] https://yubai.org/

[2] https://arxiv.org/abs/2306.04637

[3] https://en.wikipedia.org/wiki/Ridge_regression

[4] https://en.wikipedia.org/wiki/Lasso_(statistics)

[5] https://en.wikipedia.org/wiki/Loss_function

[6] https://en.wikipedia.org/wiki/Transformer_(deep_learning_architecture)

[7] https://www.threads.net/@chihua.wang.3/post/C8LKZ6tyopB

avatar-img
531會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
1. 讀書基本的紀錄: - 紀錄書籍情報和感想是讀書的基本步驟。這個建議來自日本作者倉下忠憲的著書《ロギング仕事術》,在書中的第133頁提到這一點。從高中開始,我的閱讀記錄方式就一直在變化。 2. 書店探索的重要性: - 高中的國文老師李靜妤在第一堂課時告訴我們:「高中生要
人不容易區分理想與現實,會高估自己一天的產能,會以為事情要成靠毅力就可以。但實際有操作過的話,都會發現你其實對自己的狀況掌握沒有想像中那麼好。而計畫是用來制約你一天的行動,我也很有共感。如果一天沒有計畫,很容易不知道要做什麼,時間就消失在滑社群貼文,隨意逛影片之中了。
1. 回收沒有與研究主題相關經驗的申請人: - 自傳履歷中應顯示申請人是否有與我們研究主題相關的經歷。缺乏這類經驗的申請人可能無法滿足我們的需求,因為他們可能不具備執行所需工作的基本知識和技能。 2. 忽視申請人的基礎技能: - 我在自傳履歷中會特別尋找申請人是否具備與我們工作要求相符的基
步驟1 - 為筆記編號,建立索引 在Obsidian中,將每個筆記編上獨立編號,使其成為易於引用的對象。無論是日常寫作還是社交媒體分享的短文,每篇都有編號,有助於重讀和迭代。這種方法讓想法得以有效組織和管理,提高了信息檢索的效率。
1. 教育經費的來源: - 作為博士生,可能會好奇系上的設施、薪水和活動經費是從哪裡來的。這些經費實際上是從你的系所屬的學院來的,而學院的經費則是從更上層的機構來的,這包括政府機構或私人研究機構。 2. 政府與私人機構的資金來源: - 政府機構的經費來自國民的納稅錢,這些資
步驟一:對我指定的Paper寫 1-page Report,7天內提交 步驟二:與我一對一面試30分鐘 從步驟一,我可以看出這個小朋友的寫作與表達能力, 也可以看出這個小朋友是「做題家」「九官鳥」, 還是有自己想法,想要一個舞台去實踐的人。
1. 讀書基本的紀錄: - 紀錄書籍情報和感想是讀書的基本步驟。這個建議來自日本作者倉下忠憲的著書《ロギング仕事術》,在書中的第133頁提到這一點。從高中開始,我的閱讀記錄方式就一直在變化。 2. 書店探索的重要性: - 高中的國文老師李靜妤在第一堂課時告訴我們:「高中生要
人不容易區分理想與現實,會高估自己一天的產能,會以為事情要成靠毅力就可以。但實際有操作過的話,都會發現你其實對自己的狀況掌握沒有想像中那麼好。而計畫是用來制約你一天的行動,我也很有共感。如果一天沒有計畫,很容易不知道要做什麼,時間就消失在滑社群貼文,隨意逛影片之中了。
1. 回收沒有與研究主題相關經驗的申請人: - 自傳履歷中應顯示申請人是否有與我們研究主題相關的經歷。缺乏這類經驗的申請人可能無法滿足我們的需求,因為他們可能不具備執行所需工作的基本知識和技能。 2. 忽視申請人的基礎技能: - 我在自傳履歷中會特別尋找申請人是否具備與我們工作要求相符的基
步驟1 - 為筆記編號,建立索引 在Obsidian中,將每個筆記編上獨立編號,使其成為易於引用的對象。無論是日常寫作還是社交媒體分享的短文,每篇都有編號,有助於重讀和迭代。這種方法讓想法得以有效組織和管理,提高了信息檢索的效率。
1. 教育經費的來源: - 作為博士生,可能會好奇系上的設施、薪水和活動經費是從哪裡來的。這些經費實際上是從你的系所屬的學院來的,而學院的經費則是從更上層的機構來的,這包括政府機構或私人研究機構。 2. 政府與私人機構的資金來源: - 政府機構的經費來自國民的納稅錢,這些資
步驟一:對我指定的Paper寫 1-page Report,7天內提交 步驟二:與我一對一面試30分鐘 從步驟一,我可以看出這個小朋友的寫作與表達能力, 也可以看出這個小朋友是「做題家」「九官鳥」, 還是有自己想法,想要一個舞台去實踐的人。
你可能也想看
Google News 追蹤
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 127 中提及: Transformer 的關鍵參數為: 原始 Transformer 模型中,左圖的 N = 6 原始 Tran
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 113 中安裝了 Google Trax,現在來建立 Transformer 模型: model = trax,models.
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 書籍:Transformers for Natural Language Processing and Computer Vision, Denis Rothman,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 127 中提及: Transformer 的關鍵參數為: 原始 Transformer 模型中,左圖的 N = 6 原始 Tran
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 113 中安裝了 Google Trax,現在來建立 Transformer 模型: model = trax,models.
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 書籍:Transformers for Natural Language Processing and Computer Vision, Denis Rothman,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f