C001|為什麼需要 tiktoken 將文字轉換成符元表?

更新於 發佈於 閱讀時間約 2 分鐘

2024年6月11日晚上6點48分於洛杉磯,


我打算開始每天花點時間學習大語言模型的技術部分。


主要使用的教材是 Manning出版的Build a Large Language Model (From Scratch) [1]。


這本書有配套的code,還有詳細的講解,是我信賴的學習素材。


今天首先看到的Code是

from importlib.metadata import version

import tiktoken
import torch

print("torch version:", version("torch"))
print("tiktoken version:", version("tiktoken"))


而我第一個有問題的部分,就是tiktoken。


tiktoken是OpenAI 所提供的快速開源的tokenizer[2]。


Tokenizer 本身的功能,


將一組給定的「字符串 Text String」與「編碼 Encoding」,


拆解成「符元表 List of Tokens」。


舉例來說,


輸入字符串"tiktoken is great!",


利用編碼器"cl100k_base",


tiktoken 就會回傳給你符元表 ["t", "ik", "token", " is", " great", "!"] 。


將字符串轉換為符元表,


GPT模型就看得懂你在說什麼,


進一步給你回應了!


而之所以需要將文字轉換成符元表,


是因為大語言模型無法直接處理實際文字,


所以需要將文字表現為「連續值向量 Continuous-Valued Vectors」。


這一步轉換,又被稱為「嵌入 Embedding」。


Reference

[1] https://www.manning.com/books/build-a-large-language-model-from-scratch

[2] https://cookbook.openai.com/examples/how_to_count_tokens_with_tiktoken



avatar-img
532會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
2024年6月4日, 我在洛杉磯收到了於6月1日在Amazon JP訂購12本書, 加運費竟然只花了178美金,非常划算。 回想自從2017年到美國, 一直都找不到能持續拜訪的好書店。 記得一開始拜訪美國的連鎖書店Barnes & Noble, 對其大量展示的小說
每當我學習新東西,總是感到無比的興奮。相較於買車出遊,我更喜歡透過摸索新事物來擴展自己的眼界。 ▋透過閱讀擴展視野 我主要透過購買書籍來進行探索,這也多虧父母從小到大提供的經濟支持。從幼稚園到博士畢業,我大概購買了四五千冊的書籍。父親甚至在我的房間外搭了一個鐵皮屋,專門用來存放我各式各樣
參與中研院統計所的暑期實習生招聘, 是一次難得的經驗。 作為招聘人,我學會了如何在短時間內高效篩選申請者。 以下是我從中學到的三個重大體悟。 ▋體悟1 - 自傳履歷的重要性 在所有提交的文件中, 自傳履歷最能吸引我的注意。 學校成績單和推薦信只需要2-3秒就
自從買了Plaude錄音卡以後, 許多紀錄的工作流都有改變。 我第一個主要使用錄音卡的場景, 是與學生開會的時候的30分鐘錄音。 錄音完成後就可以在APP上用AI辨識成逐字稿, 並且產生一個簡便的會議紀要。 這樣子每次學生開會的紀錄變得更加簡單, 之後研究好
學術界的彈性工時為研究人員帶來了更多的自由。 這篇文章介紹了一種簡單而有效的方法來規劃你的工作日, 提升工作效率。 通過這個方法,你將能夠更好地管理時間, 專注於重要的任務。 ▋步驟1 - 制定135任務計劃 每個工作日早晨, 拿出你的律構本 Legal P
焦慮的反面是具體。 在得到APP上看到這句話,十分有共鳴。 每當事情一多,自己能控制的部分又有限, 總會燃起焦慮的情緒。 以前總是會想很多, 但經驗上其實這些想太多的事情都不會發生。 可能事情的確都有命運的安排, 該怎樣發生的事情就會怎樣發生。 事
2024年6月4日, 我在洛杉磯收到了於6月1日在Amazon JP訂購12本書, 加運費竟然只花了178美金,非常划算。 回想自從2017年到美國, 一直都找不到能持續拜訪的好書店。 記得一開始拜訪美國的連鎖書店Barnes & Noble, 對其大量展示的小說
每當我學習新東西,總是感到無比的興奮。相較於買車出遊,我更喜歡透過摸索新事物來擴展自己的眼界。 ▋透過閱讀擴展視野 我主要透過購買書籍來進行探索,這也多虧父母從小到大提供的經濟支持。從幼稚園到博士畢業,我大概購買了四五千冊的書籍。父親甚至在我的房間外搭了一個鐵皮屋,專門用來存放我各式各樣
參與中研院統計所的暑期實習生招聘, 是一次難得的經驗。 作為招聘人,我學會了如何在短時間內高效篩選申請者。 以下是我從中學到的三個重大體悟。 ▋體悟1 - 自傳履歷的重要性 在所有提交的文件中, 自傳履歷最能吸引我的注意。 學校成績單和推薦信只需要2-3秒就
自從買了Plaude錄音卡以後, 許多紀錄的工作流都有改變。 我第一個主要使用錄音卡的場景, 是與學生開會的時候的30分鐘錄音。 錄音完成後就可以在APP上用AI辨識成逐字稿, 並且產生一個簡便的會議紀要。 這樣子每次學生開會的紀錄變得更加簡單, 之後研究好
學術界的彈性工時為研究人員帶來了更多的自由。 這篇文章介紹了一種簡單而有效的方法來規劃你的工作日, 提升工作效率。 通過這個方法,你將能夠更好地管理時間, 專注於重要的任務。 ▋步驟1 - 制定135任務計劃 每個工作日早晨, 拿出你的律構本 Legal P
焦慮的反面是具體。 在得到APP上看到這句話,十分有共鳴。 每當事情一多,自己能控制的部分又有限, 總會燃起焦慮的情緒。 以前總是會想很多, 但經驗上其實這些想太多的事情都不會發生。 可能事情的確都有命運的安排, 該怎樣發生的事情就會怎樣發生。 事
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121,我們完成書籍:Transformers for Natural Language Proc
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在第四章中,將會談論以下主題: 定義機器翻譯 人類轉導與翻譯 機器轉導和翻譯 評估機器翻譯 預處理 Workshop on Machine Translati
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 73 到 AI說書 - 從0開始 - 96,我們完成書籍:Transformers for Natural Language Proce
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 37 到 AI說書 - 從0開始 - 70 ,我們完成書籍:Transformers for Natural Language Proc
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從AI說書 - 從0開始 - 0到AI說書 - 從0開始 - 35,我們完成書籍:Transformers for Natural Language Processin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121,我們完成書籍:Transformers for Natural Language Proc
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在第四章中,將會談論以下主題: 定義機器翻譯 人類轉導與翻譯 機器轉導和翻譯 評估機器翻譯 預處理 Workshop on Machine Translati
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 73 到 AI說書 - 從0開始 - 96,我們完成書籍:Transformers for Natural Language Proce
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 37 到 AI說書 - 從0開始 - 70 ,我們完成書籍:Transformers for Natural Language Proc
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從AI說書 - 從0開始 - 0到AI說書 - 從0開始 - 35,我們完成書籍:Transformers for Natural Language Processin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference