C003|為什麼大語言模型的嵌入需要這麼多維度?

C003|為什麼大語言模型的嵌入需要這麼多維度?

更新於 發佈於 閱讀時間約 2 分鐘

大語言模型通常會生產自己的「嵌入 Embedding」作為部分的輸入層,


並且在大語言模型的訓練途中不斷優化嵌入的方式,


以對特定的任務特定的數據優化。


而大語言模型使用的「嵌入維度 Embedding Dimension」通常是高維度的,


例如最小的GPT-2模型有1億1千7百萬(117M)個參數[1],嵌入維度是765維 。


最大的GPT-3模型有1千7百5時億 (175B)個參數[2],嵌入維度是12288維。


可見「符元 Token」的空間的大小,


是我們在傳統數學教育中考慮的空間的維度以外,


很神秘的世界。


而根據Open AI於2019年11月的報告[3],


GPT-2 是能生成連貫文本段落的大型非監督語言模型,


參數的大小,最少有1億2千4百萬(124 M),最大有15億 (1.5B)。


而根據Open AI的官方說明文件[4],


嵌入就是一個浮點數向量,


用來度量「字符串 Text Strings」之間的「相關性 Relatedness」。


而取得嵌入,主要透過 Embeddings API endpoint [5] ,


選取「嵌入模型 Embedding Model」的名稱,


進一步將文本資料嵌入成向量,


儲存到「向量資料庫 Vector Embedding」之中。



Reference

[1] https://huggingface.co/transformers/v2.2.0/pretrained_models.html

[2] https://en.wikipedia.org/wiki/GPT-3

[3] https://arxiv.org/pdf/1908.09203

[4] https://platform.openai.com/docs/guides/embeddings/what-are-embeddings

[5] https://platform.openai.com/docs/api-reference/embeddings/create

avatar-img
王啟樺的沙龍
559會員
1.8K內容數
Outline as Content
留言
avatar-img
留言分享你的想法!
王啟樺的沙龍 的其他內容
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技