C005|符元ID如何幫助深度學習模型理解文本?

更新於 發佈於 閱讀時間約 2 分鐘

為了將輸入文本轉換成深度學習模型可以使用的嵌入向量,


我們需要先將「輸入文本 Input Text」轉為「符元化文本 Tokenized Text」。


而實際上「符元化文本 Tokenized Text」與「嵌入向量 Embedding Vector」之間,


還有一個步驟稱為「符元ID Tolen IDs」[1]。


符元ID 本身是將每一個「符元 Token」指定一個「整數表達 Integer Representation」。


也就是說,每一個作為符元的「單字 Word」與「標點符號 Character」,


會有個安排,一個一個對應到特定整數編號上。


而這個安排,就是所謂的「詞彙 Vocabulary」。


也就是說,詞彙是一個將符元打到符元ID的一對一映射。


回想當你在讀外語的時候,


你是不是也會把不會的單字抄成一張表,


每個單字給他編個號碼,


讀完一篇文章,你就知道你有多少個生字可以學習。


語言模型中的「詞彙 Vocabulary」就是相同的概念,


把要讓深度學習模型的符元看成生字,


每個生字的編號就是符元ID,


而你在查生字了解字怎麼用的過程,


就如同語言模型透過深度學習在學符元怎麼在文本中作用一樣。


符元ID本身,就是詞彙的索引 [2],


而這個索引的設置,


又會與語言模型的訓練數據中的語言模式有關,


模型會從中計算符元的頻率,進而指定符元ID,形成詞彙。


符元ID 其實就是一種「向量化 Vectorization」,


而向量化後的編號與向量內容,


就能讓我們活用深度學習中的最優化技術,


開始語言模型的訓練。


Reference

[1] Section 2.3 Tokenizing Text, https://www.manning.com/books/build-a-large-language-model-from-scratch

[2] https://medium.com/the-research-nest/explained-tokens-and-embeddings-in-llms-69a16ba5db33




留言
avatar-img
留言分享你的想法!
avatar-img
王啟樺的沙龍
567會員
1.8K內容數
Outline as Content
王啟樺的沙龍的其他內容
2025/03/29
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
2025/03/29
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
2025/01/29
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Thumbnail
2025/01/29
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Thumbnail
看更多
你可能也想看
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
透明立體方練習,使用AI向量繪圖軟體
Thumbnail
透明立體方練習,使用AI向量繪圖軟體
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
編碼你的命運:數字奧秘與神秘學的共振 數字,被認為是一種語言,可以被電腦理解,也可以用來解釋大自然的許多秘密。 連結網址: https://sites.google.com/view/botstw-09/ #編碼你的命運 #編碼希望學院 #兩天編碼你的命運
Thumbnail
編碼你的命運:數字奧秘與神秘學的共振 數字,被認為是一種語言,可以被電腦理解,也可以用來解釋大自然的許多秘密。 連結網址: https://sites.google.com/view/botstw-09/ #編碼你的命運 #編碼希望學院 #兩天編碼你的命運
Thumbnail
有個簡單的方法,把儲存格的文字串連起來!一起來看看怎麼做,很好操作唷!
Thumbnail
有個簡單的方法,把儲存格的文字串連起來!一起來看看怎麼做,很好操作唷!
Thumbnail
編輯的基本功,是對文字的敏感度。
Thumbnail
編輯的基本功,是對文字的敏感度。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News