C003|為什麼大語言模型的嵌入需要這麼多維度?

閱讀時間約 2 分鐘

大語言模型通常會生產自己的「嵌入 Embedding」作為部分的輸入層,


並且在大語言模型的訓練途中不斷優化嵌入的方式,


以對特定的任務特定的數據優化。


而大語言模型使用的「嵌入維度 Embedding Dimension」通常是高維度的,


例如最小的GPT-2模型有1億1千7百萬(117M)個參數[1],嵌入維度是765維 。


最大的GPT-3模型有1千7百5時億 (175B)個參數[2],嵌入維度是12288維。


可見「符元 Token」的空間的大小,


是我們在傳統數學教育中考慮的空間的維度以外,


很神秘的世界。


而根據Open AI於2019年11月的報告[3],


GPT-2 是能生成連貫文本段落的大型非監督語言模型,


參數的大小,最少有1億2千4百萬(124 M),最大有15億 (1.5B)。


而根據Open AI的官方說明文件[4],


嵌入就是一個浮點數向量,


用來度量「字符串 Text Strings」之間的「相關性 Relatedness」。


而取得嵌入,主要透過 Embeddings API endpoint [5] ,


選取「嵌入模型 Embedding Model」的名稱,


進一步將文本資料嵌入成向量,


儲存到「向量資料庫 Vector Embedding」之中。



Reference

[1] https://huggingface.co/transformers/v2.2.0/pretrained_models.html

[2] https://en.wikipedia.org/wiki/GPT-3

[3] https://arxiv.org/pdf/1908.09203

[4] https://platform.openai.com/docs/guides/embeddings/what-are-embeddings

[5] https://platform.openai.com/docs/api-reference/embeddings/create

398會員
1.4K內容數
Outline as Content
留言0
查看全部
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
手寫書目卡是一種獨特而有效的預寫作技巧,專為那些希望從閱讀中提煉和聚焦精華想法的作家和讀者設計。這種方法可以幫助你更高效率地選擇和整理從閱讀獲得的靈感。但是,這個過程也伴隨著一些挑戰。讓我們探索這些挑戰,並提出可能的解決方案。 挑戰1 - 選擇性記錄的難度:由於書目卡的空間有限,且手寫本身就是一項
任何一位希望利用碎片時間寫作的創作者, 都能從這篇文章中受益。 無論是提高寫作效率, 還是發現新的靈感來源, 這裡有三個理由讓你嘗試在長途公車上寫作。 讓我們一起探索這個獨特的寫作方式, 讓寫作融入你的日常生活。 ▋理由1 - 擺脫寫作環境的限制 在長
「嵌入 Embedding」這個概念, 是指將「資料 Data」轉換為「向量 Vector」格式的過程。 資料可以是影片的樣本, 可以是音訊的樣本, 可以是圖片的樣本, 可以是文字的樣本。 不同類型的樣本, 可以透過相對應的預訓練神經網路模型, 將資料
在UCLA統計與資料科學系擔任博士後研究員, 在2024年7月就滿兩年了。 這兩年托老闆程光教授的福, 有了非常多帶學生的機會,算一算也帶了15個學生。 透過帶學生的經驗, 我也認識到各式各樣的學生各自的優缺點。 許多學生會到我們實驗室找研究實習, 不外乎就
一位復旦大學數學系三年級的學生,在與我第二次見面時,問了一個重要的問題:「你們會收怎麼樣的學生當博士生?」 當時我與這個學生進行了詳細的交流,但一句話來總結,就是「有自己意見,而且有技術底氣的學生」。同時具備這兩個特質的學生,其實相當稀少。 ▋有自己意見 在台大的經驗告訴我,有自己
無論是學術工作者還是生活愛好者, 都能從這篇文章中找到使用Obsidian的好處。 這篇文章將揭示如何有效地管理和利用資訊。 透過實踐, Obsidian已成為我生活與工作中的重要工具。 ▋發現1 - 高效的學術閱讀管理 在學術工作中, 我利用Obsidia
手寫書目卡是一種獨特而有效的預寫作技巧,專為那些希望從閱讀中提煉和聚焦精華想法的作家和讀者設計。這種方法可以幫助你更高效率地選擇和整理從閱讀獲得的靈感。但是,這個過程也伴隨著一些挑戰。讓我們探索這些挑戰,並提出可能的解決方案。 挑戰1 - 選擇性記錄的難度:由於書目卡的空間有限,且手寫本身就是一項
任何一位希望利用碎片時間寫作的創作者, 都能從這篇文章中受益。 無論是提高寫作效率, 還是發現新的靈感來源, 這裡有三個理由讓你嘗試在長途公車上寫作。 讓我們一起探索這個獨特的寫作方式, 讓寫作融入你的日常生活。 ▋理由1 - 擺脫寫作環境的限制 在長
「嵌入 Embedding」這個概念, 是指將「資料 Data」轉換為「向量 Vector」格式的過程。 資料可以是影片的樣本, 可以是音訊的樣本, 可以是圖片的樣本, 可以是文字的樣本。 不同類型的樣本, 可以透過相對應的預訓練神經網路模型, 將資料
在UCLA統計與資料科學系擔任博士後研究員, 在2024年7月就滿兩年了。 這兩年托老闆程光教授的福, 有了非常多帶學生的機會,算一算也帶了15個學生。 透過帶學生的經驗, 我也認識到各式各樣的學生各自的優缺點。 許多學生會到我們實驗室找研究實習, 不外乎就
一位復旦大學數學系三年級的學生,在與我第二次見面時,問了一個重要的問題:「你們會收怎麼樣的學生當博士生?」 當時我與這個學生進行了詳細的交流,但一句話來總結,就是「有自己意見,而且有技術底氣的學生」。同時具備這兩個特質的學生,其實相當稀少。 ▋有自己意見 在台大的經驗告訴我,有自己
無論是學術工作者還是生活愛好者, 都能從這篇文章中找到使用Obsidian的好處。 這篇文章將揭示如何有效地管理和利用資訊。 透過實踐, Obsidian已成為我生活與工作中的重要工具。 ▋發現1 - 高效的學術閱讀管理 在學術工作中, 我利用Obsidia
你可能也想看
Google News 追蹤
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
照夜白/圖 貓落/文 一場廢盡千辛萬苦的圖文集 --《漠視錄》 《C.A.G.E》 別看了 是嗎.. 像是牢籠嗎? 如何向內擁抱都有個極限 最後會停在 自身 一個 單位 太多了已經
C 台灣的新創團隊 如果想要使用以太坊技術 來營利同時做公益慈善 可以發展那些專案 #VitalikButerin #ETHTaipei2024 #ETHTaipeiHackathon2024 ... (好的顧問導師教練 協助妳提早得到幸福 更快實現夢想 幸福課程
C如何找到和確認誰是真正該被幫助的善良弱勢? 如何找到和確認真正在做對的事的公益慈善? 如何查核公益慈善的正職和志工 避免有用善心的人做的很累 混水摸魚的卻可以領到薪水拿到時數證明? 幸福教練黃老師 潮資訊媒體 找到和確認真正需要幫助的善良弱勢 以及評估公益慈善的正確性和透明
Thumbnail
c女生在高中 高職 大學 如果想參加各種科技新創 社會創新 永續設計等等相關比賽 應該主動學習和培養 哪些知識和技能 幸福教練黃老師 潮資訊媒體 參加科技新創、社會創新以及永續設計等相關比賽, 女生在高中或高職階段 可以主動學習和培養以下知識和技能: 程式設計和編程
Thumbnail
C型肝炎是由C型肝炎病毒感染引起的疾病,常見症狀包括疲倦、食慾不振、噁心、腹部不適等。文章介紹了C型肝炎的傳染方式、感染風險族群以及預防方法。此外,也提供了西醫和中醫對C型肝炎的治療方法和常用中藥的介紹。
Thumbnail
C怎麼填詞 才能夠 更有畫面感 更有故事性 更能夠引起共鳴 更能朗朗上口 更有機會得金曲獎 更有機會得金馬獎 更有機會得葛萊美獎 幸福課程 幸福教練黃老師 潮資訊媒體 社群編輯 填詞是一門藝術, 需要結合文學、音樂感和表達力。 以下是一些建議, 讓妳的歌詞作更有
Thumbnail
當我的自營工作室客源開始穩定時,C就這樣悄悄走進我的生命裡,至今為止,我和C從來沒有吵架過,連一點點的不愉快、疙瘩甚至懷疑都沒有,對我而言,C的意義只有美好。她總是希望我過得好,我也祝福她永遠快樂。     我的租屋處是一棟由五樓透天隔間的大套房,而我就住在頂樓,旁邊還有一間空房一直沒人承租
Thumbnail
發洩完情緒之後,內心裡,總會有一種抒坦。是那種放下的感覺,是那種,什麼都好,都可以不重要,只有自己的那種,唯我獨尊的快感。可以不必再在意些什麼,不必再掙扎著去要求些什麼。唯有放寛心了,才能更真實去體驗自己正在經歷的過程。放下些什麼,才能獲得些什麼。 昨晚,C因為工作無法前來陪伴休假的我。經前症候群嚴
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
照夜白/圖 貓落/文 一場廢盡千辛萬苦的圖文集 --《漠視錄》 《C.A.G.E》 別看了 是嗎.. 像是牢籠嗎? 如何向內擁抱都有個極限 最後會停在 自身 一個 單位 太多了已經
C 台灣的新創團隊 如果想要使用以太坊技術 來營利同時做公益慈善 可以發展那些專案 #VitalikButerin #ETHTaipei2024 #ETHTaipeiHackathon2024 ... (好的顧問導師教練 協助妳提早得到幸福 更快實現夢想 幸福課程
C如何找到和確認誰是真正該被幫助的善良弱勢? 如何找到和確認真正在做對的事的公益慈善? 如何查核公益慈善的正職和志工 避免有用善心的人做的很累 混水摸魚的卻可以領到薪水拿到時數證明? 幸福教練黃老師 潮資訊媒體 找到和確認真正需要幫助的善良弱勢 以及評估公益慈善的正確性和透明
Thumbnail
c女生在高中 高職 大學 如果想參加各種科技新創 社會創新 永續設計等等相關比賽 應該主動學習和培養 哪些知識和技能 幸福教練黃老師 潮資訊媒體 參加科技新創、社會創新以及永續設計等相關比賽, 女生在高中或高職階段 可以主動學習和培養以下知識和技能: 程式設計和編程
Thumbnail
C型肝炎是由C型肝炎病毒感染引起的疾病,常見症狀包括疲倦、食慾不振、噁心、腹部不適等。文章介紹了C型肝炎的傳染方式、感染風險族群以及預防方法。此外,也提供了西醫和中醫對C型肝炎的治療方法和常用中藥的介紹。
Thumbnail
C怎麼填詞 才能夠 更有畫面感 更有故事性 更能夠引起共鳴 更能朗朗上口 更有機會得金曲獎 更有機會得金馬獎 更有機會得葛萊美獎 幸福課程 幸福教練黃老師 潮資訊媒體 社群編輯 填詞是一門藝術, 需要結合文學、音樂感和表達力。 以下是一些建議, 讓妳的歌詞作更有
Thumbnail
當我的自營工作室客源開始穩定時,C就這樣悄悄走進我的生命裡,至今為止,我和C從來沒有吵架過,連一點點的不愉快、疙瘩甚至懷疑都沒有,對我而言,C的意義只有美好。她總是希望我過得好,我也祝福她永遠快樂。     我的租屋處是一棟由五樓透天隔間的大套房,而我就住在頂樓,旁邊還有一間空房一直沒人承租
Thumbnail
發洩完情緒之後,內心裡,總會有一種抒坦。是那種放下的感覺,是那種,什麼都好,都可以不重要,只有自己的那種,唯我獨尊的快感。可以不必再在意些什麼,不必再掙扎著去要求些什麼。唯有放寛心了,才能更真實去體驗自己正在經歷的過程。放下些什麼,才能獲得些什麼。 昨晚,C因為工作無法前來陪伴休假的我。經前症候群嚴