C005|符元ID如何幫助深度學習模型理解文本?

閱讀時間約 2 分鐘

為了將輸入文本轉換成深度學習模型可以使用的嵌入向量,


我們需要先將「輸入文本 Input Text」轉為「符元化文本 Tokenized Text」。


而實際上「符元化文本 Tokenized Text」與「嵌入向量 Embedding Vector」之間,


還有一個步驟稱為「符元ID Tolen IDs」[1]。


符元ID 本身是將每一個「符元 Token」指定一個「整數表達 Integer Representation」。


也就是說,每一個作為符元的「單字 Word」與「標點符號 Character」,


會有個安排,一個一個對應到特定整數編號上。


而這個安排,就是所謂的「詞彙 Vocabulary」。


也就是說,詞彙是一個將符元打到符元ID的一對一映射。


回想當你在讀外語的時候,


你是不是也會把不會的單字抄成一張表,


每個單字給他編個號碼,


讀完一篇文章,你就知道你有多少個生字可以學習。


語言模型中的「詞彙 Vocabulary」就是相同的概念,


把要讓深度學習模型的符元看成生字,


每個生字的編號就是符元ID,


而你在查生字了解字怎麼用的過程,


就如同語言模型透過深度學習在學符元怎麼在文本中作用一樣。


符元ID本身,就是詞彙的索引 [2],


而這個索引的設置,


又會與語言模型的訓練數據中的語言模式有關,


模型會從中計算符元的頻率,進而指定符元ID,形成詞彙。


符元ID 其實就是一種「向量化 Vectorization」,


而向量化後的編號與向量內容,


就能讓我們活用深度學習中的最優化技術,


開始語言模型的訓練。


Reference

[1] Section 2.3 Tokenizing Text, https://www.manning.com/books/build-a-large-language-model-from-scratch

[2] https://medium.com/the-research-nest/explained-tokens-and-embeddings-in-llms-69a16ba5db33




avatar-img
531會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
記得我在碩二的時候看Paper, 都會想說這些Paper好強, 怎麼都有這麼「新穎的點子」! 後來我發現,點子是不是真的新, 你需要去問一個很關鍵的問題: 「這個點子,是對你的知識面很新, 還是說對整個領域來說很新?」 如果是對你的知識面很新, 那你要
2010年到2017年,我還在台北。那段時間,我經常光顧幾家書店,這些書店成為我探索知識的寶庫和心靈的避風港。 ▋政大書城 政大書城是我常去的地方之一。雖然我並沒有任何考試的壓力,但我經常在這裡購買各種考試用書,純粹是為了學習,增廣見聞。這些書籍幫助我拓展了很多不同領域的知識,讓我在學習
對於像我這樣的動畫迷和輕小說愛好者來說, 狼與辛香料是永遠的經典。 重溫這部作品, 讓我重新體會到了青春的熱情和智慧的力量。 這篇文章, 我將分享重溫狼與辛香料第一季前六集後的三大收穫。 ▋收穫1 - 時光倒流的感動 再次觀看狼與辛香料, 仿佛進行了一
在學習大語言模型的技術細節時, 弄清楚「輸入文本 Input Text」與「符元化文本 Tokenized Text」之間的差異會很方便[1]。 舉個具體的例子: 輸入文本:Hello, 你好. Obsidian is great! 符元化文本:['Hello', ',',
「如果不去Push Science的Boundary,那麼這個系就會漸漸變成主要Teaching的系。」 2024年6月6日, 在我們實驗室為即將畢業的新科博士舉行的餞別餐會上, 我從我老闆程光老師這句話上得到相當多啟發。 我們實驗室雖然處於統計與資料科學系, 但自從我
2023年的3月到4月,我有幸參加了美國國家科學基金的I-Corps™計畫。這項計畫的初衷是賦予科學研究人員企業家精神,鼓勵他們思考如何使科學研究為社會帶來真正的價值。 明眼人都知道,許多教授的研究與實務脫節,學生畢業後往往成為為五斗米折腰的打工人。參與I-Corps™計畫對我而言最大的收穫,
記得我在碩二的時候看Paper, 都會想說這些Paper好強, 怎麼都有這麼「新穎的點子」! 後來我發現,點子是不是真的新, 你需要去問一個很關鍵的問題: 「這個點子,是對你的知識面很新, 還是說對整個領域來說很新?」 如果是對你的知識面很新, 那你要
2010年到2017年,我還在台北。那段時間,我經常光顧幾家書店,這些書店成為我探索知識的寶庫和心靈的避風港。 ▋政大書城 政大書城是我常去的地方之一。雖然我並沒有任何考試的壓力,但我經常在這裡購買各種考試用書,純粹是為了學習,增廣見聞。這些書籍幫助我拓展了很多不同領域的知識,讓我在學習
對於像我這樣的動畫迷和輕小說愛好者來說, 狼與辛香料是永遠的經典。 重溫這部作品, 讓我重新體會到了青春的熱情和智慧的力量。 這篇文章, 我將分享重溫狼與辛香料第一季前六集後的三大收穫。 ▋收穫1 - 時光倒流的感動 再次觀看狼與辛香料, 仿佛進行了一
在學習大語言模型的技術細節時, 弄清楚「輸入文本 Input Text」與「符元化文本 Tokenized Text」之間的差異會很方便[1]。 舉個具體的例子: 輸入文本:Hello, 你好. Obsidian is great! 符元化文本:['Hello', ',',
「如果不去Push Science的Boundary,那麼這個系就會漸漸變成主要Teaching的系。」 2024年6月6日, 在我們實驗室為即將畢業的新科博士舉行的餞別餐會上, 我從我老闆程光老師這句話上得到相當多啟發。 我們實驗室雖然處於統計與資料科學系, 但自從我
2023年的3月到4月,我有幸參加了美國國家科學基金的I-Corps™計畫。這項計畫的初衷是賦予科學研究人員企業家精神,鼓勵他們思考如何使科學研究為社會帶來真正的價值。 明眼人都知道,許多教授的研究與實務脫節,學生畢業後往往成為為五斗米折腰的打工人。參與I-Corps™計畫對我而言最大的收穫,
你可能也想看
Google News 追蹤
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,對一些看似基本,但是重要且會影響到之後實作的項目概念有點疑惑,覺得應該查清楚,所以搞懂後記錄下來,寫下這篇文章(應該說是筆記?)。 正文 下面這段程式碼: model = Sequential() model.add
前言 其實摸機器學習、深度學習也有一陣子了,雖然大致上都理解,不過有些細節若不是那麼清楚,我也沒仔細去弄懂。今天剛好在《強化式學習:打造最強 AlphaZero 通用演算法》這本書看到之前略過的幾個名詞,書中有解釋其背後代表的東西的功能,在此記錄下來,以後又忘掉時可回來查看。 正文 "激活
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,對一些看似基本,但是重要且會影響到之後實作的項目概念有點疑惑,覺得應該查清楚,所以搞懂後記錄下來,寫下這篇文章(應該說是筆記?)。 正文 下面這段程式碼: model = Sequential() model.add
前言 其實摸機器學習、深度學習也有一陣子了,雖然大致上都理解,不過有些細節若不是那麼清楚,我也沒仔細去弄懂。今天剛好在《強化式學習:打造最強 AlphaZero 通用演算法》這本書看到之前略過的幾個名詞,書中有解釋其背後代表的東西的功能,在此記錄下來,以後又忘掉時可回來查看。 正文 "激活
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。