大語言模型通常會生產自己的「嵌入 Embedding」作為部分的輸入層,
並且在大語言模型的訓練途中不斷優化嵌入的方式,
以對特定的任務特定的數據優化。
而大語言模型使用的「嵌入維度 Embedding Dimension」通常是高維度的,
例如最小的GPT-2模型有1億1千7百萬(117M)個參數[1],嵌入維度是765維 。
最大的GPT-3模型有1千7百5時億 (175B)個參數[2],嵌入維度是12288維。
可見「符元 Token」的空間的大小,
是我們在傳統數學教育中考慮的空間的維度以外,
很神秘的世界。
而根據Open AI於2019年11月的報告[3],
GPT-2 是能生成連貫文本段落的大型非監督語言模型,
參數的大小,最少有1億2千4百萬(124 M),最大有15億 (1.5B)。
而根據Open AI的官方說明文件[4],
嵌入就是一個浮點數向量,
用來度量「字符串 Text Strings」之間的「相關性 Relatedness」。
而取得嵌入,主要透過 Embeddings API endpoint [5] ,
選取「嵌入模型 Embedding Model」的名稱,
進一步將文本資料嵌入成向量,
儲存到「向量資料庫 Vector Embedding」之中。
Reference
[1] https://huggingface.co/transformers/v2.2.0/pretrained_models.html
[2] https://en.wikipedia.org/wiki/GPT-3
[3] https://arxiv.org/pdf/1908.09203
[4] https://platform.openai.com/docs/guides/embeddings/what-are-embeddings
[5] https://platform.openai.com/docs/api-reference/embeddings/create