C005｜符元ID如何幫助深度學習模型理解文本？

王啟樺

更新於 2024/06/16發佈於 2024/06/16閱讀時間約 2 分鐘

為了將輸入文本轉換成深度學習模型可以使用的嵌入向量，

我們需要先將「輸入文本 Input Text」轉為「符元化文本 Tokenized Text」。

而實際上「符元化文本 Tokenized Text」與「嵌入向量 Embedding Vector」之間，

還有一個步驟稱為「符元ID Tolen IDs」[1]。

符元ID 本身是將每一個「符元 Token」指定一個「整數表達 Integer Representation」。

也就是說，每一個作為符元的「單字 Word」與「標點符號 Character」，

會有個安排，一個一個對應到特定整數編號上。

而這個安排，就是所謂的「詞彙 Vocabulary」。

也就是說，詞彙是一個將符元打到符元ID的一對一映射。

回想當你在讀外語的時候，

你是不是也會把不會的單字抄成一張表，

每個單字給他編個號碼，

讀完一篇文章，你就知道你有多少個生字可以學習。

語言模型中的「詞彙 Vocabulary」就是相同的概念，

把要讓深度學習模型的符元看成生字，

每個生字的編號就是符元ID，

而你在查生字了解字怎麼用的過程，

就如同語言模型透過深度學習在學符元怎麼在文本中作用一樣。

符元ID本身，就是詞彙的索引 [2]，

而這個索引的設置，

又會與語言模型的訓練數據中的語言模式有關，

模型會從中計算符元的頻率，進而指定符元ID，形成詞彙。

符元ID 其實就是一種「向量化 Vectorization」，

而向量化後的編號與向量內容，

就能讓我們活用深度學習中的最優化技術，

開始語言模型的訓練。

Reference

[1] Section 2.3 Tokenizing Text, https://www.manning.com/books/build-a-large-language-model-from-scratch

[2] https://medium.com/the-research-nest/explained-tokens-and-embeddings-in-llms-69a16ba5db33

#大語言模型

留言

留言分享你的想法！

王啟樺的沙龍

567會員

1.8K內容數

Outline as Content

王啟樺的沙龍的其他內容

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

Passive Consumption（被動接收） vs. Active Reading（主動閱讀）｜真正讓你進化的閱讀差在這裡碩博士生每天都在讀論文、讀報告、讀教材，但大多數人其實只是「看過了」，不是「讀進去了」。讀很多卻吸收很少，記不起重點、寫不出心得，不是你不夠努力，而是你還停

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀，你就可能錯失整個時代的最大機遇 AI 的發展速度，真的快到讓人心驚。我們常常以為美國在 AI 領域穩居頂尖，可現在中國的 AI 創新力好像開始迎頭趕上，這背後的原因是什麼？若我們沒有跟上這波 AI 變革，就可能被遠遠拋在後面，錯失技

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

看更多

你可能也想看

方格子 vocus 官方沙龍

沙龍介面新登場！自訂你的創作空間，讓好內容被看見

沙龍一直是創作與交流的重要空間，這次 vocus 全面改版了沙龍介面，就是為了讓好內容被好好看見！你可以自由編排你的沙龍首頁版位，新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。改版完成後可以在社群媒體分享新版面，並標記 @vocus.official⁠ ♥️ ⁠

#vocus#方格子#方格子沙龍

2025/06/12

方格子 vocus 官方沙龍

沙龍介面新登場！自訂你的創作空間，讓好內容被看見

#vocus#方格子#方格子沙龍

2025/06/12

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

JayRay 的沙龍

【資料分析】python資料處理-類別欄位轉換基礎操作語法彙整

本文介紹了在進行資料分析時，將類別欄位轉換為數值欄位的方法，包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。

#數據#順序#模型

2024/08/01

JayRay 的沙龍

【資料分析】python資料處理-類別欄位轉換基礎操作語法彙整

#數據#順序#模型

2024/08/01

JayRay 的沙龍

【資料分析】python資料處理-缺失值處理基礎操作語法彙整

資料前處理（Data Preprocessing）中的重要角色-缺失值處理。從檢查、刪除到填充缺失值，以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。

#數據#基礎#學習

2024/07/31

JayRay 的沙龍

【資料分析】python資料處理-缺失值處理基礎操作語法彙整

2024/07/31

高中數學主題練習—根式化簡

2024/06/25

高中數學主題練習—根式化簡

2024/06/25

高中數學主題練習—根式化簡

2024/06/25

高中數學主題練習—根式化簡

2024/06/25

2024/05/27

2024/05/27

透明立體方練習，使用ＡＩ向量繪圖軟體

2024/04/16

透明立體方練習，使用ＡＩ向量繪圖軟體

2024/04/16

本文介紹了如何使用資料樞紐分析的功能來整理所需的資料，並設定圖表的中文字型，最後提供了繪圖的程式碼範例。

#圖表#python#資料分析

2024/04/01

果農的沙龍

如何用Python繪製直方圖

本文介紹了如何使用資料樞紐分析的功能來整理所需的資料，並設定圖表的中文字型，最後提供了繪圖的程式碼範例。

#圖表#python#資料分析

2024/04/01

MikeJohn的沙龍

編碼你的命運：數字奧秘與神秘學的共振

編碼你的命運：數字奧秘與神秘學的共振數字，被認為是一種語言，可以被電腦理解，也可以用來解釋大自然的許多秘密。連結網址: https://sites.google.com/view/botstw-09/ #編碼你的命運 #編碼希望學院 #兩天編碼你的命運

#編碼你的命運#編碼希望學院#兩天編碼你的命運

2024/03/09

MikeJohn的沙龍

編碼你的命運：數字奧秘與神秘學的共振

#編碼你的命運#編碼希望學院#兩天編碼你的命運

2024/03/09

喜特先生官方沙龍

TEXTJOIN，把儲存格串起來

有個簡單的方法，把儲存格的文字串連起來！一起來看看怎麼做，很好操作唷！

#Google試算表#喜特先生#TEXTJOIN

2024/01/14

喜特先生官方沙龍

TEXTJOIN，把儲存格串起來

有個簡單的方法，把儲存格的文字串連起來！一起來看看怎麼做，很好操作唷！

#Google試算表#喜特先生#TEXTJOIN

2024/01/14

編輯的基本功，是對文字的敏感度。

2024/01/05

編輯的基本功，是對文字的敏感度。

2024/01/05

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News