C004|什麼是符元化文本?

閱讀時間約 3 分鐘

在學習大語言模型的技術細節時,


弄清楚「輸入文本 Input Text」與「符元化文本 Tokenized Text」之間的差異會很方便[1]。


舉個具體的例子:


輸入文本:Hello, 你好. Obsidian is great!


符元化文本:['Hello', ',', '你好', '.', 'Obsidian', 'is', 'great', '!']


可以看到文本被拆成一塊一塊的,


接著每一塊送進去編碼器,


成為「嵌入向量 Embedding Vector」,


那麼深度學習就可以發揮其作用了!


而怎麼去將一個輸入文本轉為符元化文本呢?


其實可以用「正則表達式 Regular Expression」就能做到簡單的符元化效果。

import re
text = "Hello, 你好. Obsidian is great!"
result = re.split(r'([,.:;?_!"()\']|--|\s)', text)
result = [item.strip() for item in result if item.strip()]
print(result)


第一行的`import re`,


就是呼叫Python中操作正則表達式的模組 re [2]。


第三行的指令`result = re.split(r'([,.:;?_!"()\']|--|\s)', text)`,


是根據指定的標點符號(逗號、句點、冒號、分號、問號、驚嘆號、引號、圓括號)、


兩個短橫線或任何空白字符來分割字串,


並且將這些分隔符也包含在結果中。


這樣可以保留文本中的標點符號和空白字符,方便後續處理。


第四行的指令`result = [item.strip() for item in result if item.strip()]` ,


則是去除每個元素兩端的空白字符,並且只保留非空的元素,


最後得到的效果就是['Hello', ',', '你好', '.', 'Obsidian', 'is', 'great', '!'] 。


原則上,不同的文本,


會需要不同的「符元化方案 Tokenization Scheme」,


來將輸入文本轉為符元化文本,


以更加符合目前有的資料與任務。


Reference

[1] Section 2.2 Tokenizing Text, https://www.manning.com/books/build-a-large-language-model-from-scratch

[2] https://docs.python.org/3/library/re.html

398會員
1.4K內容數
Outline as Content
留言0
查看全部
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
「如果不去Push Science的Boundary,那麼這個系就會漸漸變成主要Teaching的系。」 2024年6月6日, 在我們實驗室為即將畢業的新科博士舉行的餞別餐會上, 我從我老闆程光老師這句話上得到相當多啟發。 我們實驗室雖然處於統計與資料科學系, 但自從我
2023年的3月到4月,我有幸參加了美國國家科學基金的I-Corps™計畫。這項計畫的初衷是賦予科學研究人員企業家精神,鼓勵他們思考如何使科學研究為社會帶來真正的價值。 明眼人都知道,許多教授的研究與實務脫節,學生畢業後往往成為為五斗米折腰的打工人。參與I-Corps™計畫對我而言最大的收穫,
這篇文章適合那些希望提高工作效率的知識工作者, 通過間歇工作法, 你能有效利用時間, 保持高效狀態。 我將分享我每天完成300分鐘深度專注工作的秘密。 ▋步驟1 - 設定明確的目標 在開始50分鐘的深度工作之前, 我會先確定這50分鐘內的具體目標產出。
認識我有一段時間的人,總是對我晚上九點睡、早上四點起的生活習慣感到驚訝。我成為晨型人已經17年了,這個習慣給我帶來了無數好處。 ▋建立晨型習慣的契機 我成為晨型人的契機是在15歲的時候,那時我在書店買了一本書,名叫《早上3小時完成一天工作》。這本書是由日本作家所寫,內容講述了在早上完成重
今天分享一些我參加研討會的經驗。 我在博士一年級到三年級時, 把研討會當作是一個「讓別人認識我的機會」。 例如我曾在統計年會Joint Statistical Meetings (JSM) 2019與2020, 這兩屆研討會去Present我在博士早期的工作。 在會議中
大語言模型通常會生產自己的「嵌入 Embedding」作為部分的輸入層, 並且在大語言模型的訓練途中不斷優化嵌入的方式, 以對特定的任務特定的數據優化。 而大語言模型使用的「嵌入維度 Embedding Dimension」通常是高維度的, 例如最小的GPT-2模型有1億1千
「如果不去Push Science的Boundary,那麼這個系就會漸漸變成主要Teaching的系。」 2024年6月6日, 在我們實驗室為即將畢業的新科博士舉行的餞別餐會上, 我從我老闆程光老師這句話上得到相當多啟發。 我們實驗室雖然處於統計與資料科學系, 但自從我
2023年的3月到4月,我有幸參加了美國國家科學基金的I-Corps™計畫。這項計畫的初衷是賦予科學研究人員企業家精神,鼓勵他們思考如何使科學研究為社會帶來真正的價值。 明眼人都知道,許多教授的研究與實務脫節,學生畢業後往往成為為五斗米折腰的打工人。參與I-Corps™計畫對我而言最大的收穫,
這篇文章適合那些希望提高工作效率的知識工作者, 通過間歇工作法, 你能有效利用時間, 保持高效狀態。 我將分享我每天完成300分鐘深度專注工作的秘密。 ▋步驟1 - 設定明確的目標 在開始50分鐘的深度工作之前, 我會先確定這50分鐘內的具體目標產出。
認識我有一段時間的人,總是對我晚上九點睡、早上四點起的生活習慣感到驚訝。我成為晨型人已經17年了,這個習慣給我帶來了無數好處。 ▋建立晨型習慣的契機 我成為晨型人的契機是在15歲的時候,那時我在書店買了一本書,名叫《早上3小時完成一天工作》。這本書是由日本作家所寫,內容講述了在早上完成重
今天分享一些我參加研討會的經驗。 我在博士一年級到三年級時, 把研討會當作是一個「讓別人認識我的機會」。 例如我曾在統計年會Joint Statistical Meetings (JSM) 2019與2020, 這兩屆研討會去Present我在博士早期的工作。 在會議中
大語言模型通常會生產自己的「嵌入 Embedding」作為部分的輸入層, 並且在大語言模型的訓練途中不斷優化嵌入的方式, 以對特定的任務特定的數據優化。 而大語言模型使用的「嵌入維度 Embedding Dimension」通常是高維度的, 例如最小的GPT-2模型有1億1千
你可能也想看
Google News 追蹤
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
照夜白/圖 貓落/文 一場廢盡千辛萬苦的圖文集 --《漠視錄》 《C.A.G.E》 別看了 是嗎.. 像是牢籠嗎? 如何向內擁抱都有個極限 最後會停在 自身 一個 單位 太多了已經
C 台灣的新創團隊 如果想要使用以太坊技術 來營利同時做公益慈善 可以發展那些專案 #VitalikButerin #ETHTaipei2024 #ETHTaipeiHackathon2024 ... (好的顧問導師教練 協助妳提早得到幸福 更快實現夢想 幸福課程
C如何找到和確認誰是真正該被幫助的善良弱勢? 如何找到和確認真正在做對的事的公益慈善? 如何查核公益慈善的正職和志工 避免有用善心的人做的很累 混水摸魚的卻可以領到薪水拿到時數證明? 幸福教練黃老師 潮資訊媒體 找到和確認真正需要幫助的善良弱勢 以及評估公益慈善的正確性和透明
Thumbnail
c女生在高中 高職 大學 如果想參加各種科技新創 社會創新 永續設計等等相關比賽 應該主動學習和培養 哪些知識和技能 幸福教練黃老師 潮資訊媒體 參加科技新創、社會創新以及永續設計等相關比賽, 女生在高中或高職階段 可以主動學習和培養以下知識和技能: 程式設計和編程
Thumbnail
C型肝炎是由C型肝炎病毒感染引起的疾病,常見症狀包括疲倦、食慾不振、噁心、腹部不適等。文章介紹了C型肝炎的傳染方式、感染風險族群以及預防方法。此外,也提供了西醫和中醫對C型肝炎的治療方法和常用中藥的介紹。
Thumbnail
C怎麼填詞 才能夠 更有畫面感 更有故事性 更能夠引起共鳴 更能朗朗上口 更有機會得金曲獎 更有機會得金馬獎 更有機會得葛萊美獎 幸福課程 幸福教練黃老師 潮資訊媒體 社群編輯 填詞是一門藝術, 需要結合文學、音樂感和表達力。 以下是一些建議, 讓妳的歌詞作更有
Thumbnail
當我的自營工作室客源開始穩定時,C就這樣悄悄走進我的生命裡,至今為止,我和C從來沒有吵架過,連一點點的不愉快、疙瘩甚至懷疑都沒有,對我而言,C的意義只有美好。她總是希望我過得好,我也祝福她永遠快樂。     我的租屋處是一棟由五樓透天隔間的大套房,而我就住在頂樓,旁邊還有一間空房一直沒人承租
Thumbnail
發洩完情緒之後,內心裡,總會有一種抒坦。是那種放下的感覺,是那種,什麼都好,都可以不重要,只有自己的那種,唯我獨尊的快感。可以不必再在意些什麼,不必再掙扎著去要求些什麼。唯有放寛心了,才能更真實去體驗自己正在經歷的過程。放下些什麼,才能獲得些什麼。 昨晚,C因為工作無法前來陪伴休假的我。經前症候群嚴
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
照夜白/圖 貓落/文 一場廢盡千辛萬苦的圖文集 --《漠視錄》 《C.A.G.E》 別看了 是嗎.. 像是牢籠嗎? 如何向內擁抱都有個極限 最後會停在 自身 一個 單位 太多了已經
C 台灣的新創團隊 如果想要使用以太坊技術 來營利同時做公益慈善 可以發展那些專案 #VitalikButerin #ETHTaipei2024 #ETHTaipeiHackathon2024 ... (好的顧問導師教練 協助妳提早得到幸福 更快實現夢想 幸福課程
C如何找到和確認誰是真正該被幫助的善良弱勢? 如何找到和確認真正在做對的事的公益慈善? 如何查核公益慈善的正職和志工 避免有用善心的人做的很累 混水摸魚的卻可以領到薪水拿到時數證明? 幸福教練黃老師 潮資訊媒體 找到和確認真正需要幫助的善良弱勢 以及評估公益慈善的正確性和透明
Thumbnail
c女生在高中 高職 大學 如果想參加各種科技新創 社會創新 永續設計等等相關比賽 應該主動學習和培養 哪些知識和技能 幸福教練黃老師 潮資訊媒體 參加科技新創、社會創新以及永續設計等相關比賽, 女生在高中或高職階段 可以主動學習和培養以下知識和技能: 程式設計和編程
Thumbnail
C型肝炎是由C型肝炎病毒感染引起的疾病,常見症狀包括疲倦、食慾不振、噁心、腹部不適等。文章介紹了C型肝炎的傳染方式、感染風險族群以及預防方法。此外,也提供了西醫和中醫對C型肝炎的治療方法和常用中藥的介紹。
Thumbnail
C怎麼填詞 才能夠 更有畫面感 更有故事性 更能夠引起共鳴 更能朗朗上口 更有機會得金曲獎 更有機會得金馬獎 更有機會得葛萊美獎 幸福課程 幸福教練黃老師 潮資訊媒體 社群編輯 填詞是一門藝術, 需要結合文學、音樂感和表達力。 以下是一些建議, 讓妳的歌詞作更有
Thumbnail
當我的自營工作室客源開始穩定時,C就這樣悄悄走進我的生命裡,至今為止,我和C從來沒有吵架過,連一點點的不愉快、疙瘩甚至懷疑都沒有,對我而言,C的意義只有美好。她總是希望我過得好,我也祝福她永遠快樂。     我的租屋處是一棟由五樓透天隔間的大套房,而我就住在頂樓,旁邊還有一間空房一直沒人承租
Thumbnail
發洩完情緒之後,內心裡,總會有一種抒坦。是那種放下的感覺,是那種,什麼都好,都可以不重要,只有自己的那種,唯我獨尊的快感。可以不必再在意些什麼,不必再掙扎著去要求些什麼。唯有放寛心了,才能更真實去體驗自己正在經歷的過程。放下些什麼,才能獲得些什麼。 昨晚,C因為工作無法前來陪伴休假的我。經前症候群嚴