C001｜為什麼需要 tiktoken 將文字轉換成符元表？

更新於 2024/06/12發佈於 2024/06/12閱讀時間約 2 分鐘

2024年6月11日晚上6點48分於洛杉磯，

我打算開始每天花點時間學習大語言模型的技術部分。

主要使用的教材是 Manning出版的Build a Large Language Model (From Scratch) [1]。

這本書有配套的code，還有詳細的講解，是我信賴的學習素材。

今天首先看到的Code是

from importlib.metadata import version

import tiktoken
import torch

print("torch version:", version("torch"))
print("tiktoken version:", version("tiktoken"))

而我第一個有問題的部分，就是tiktoken。

tiktoken是OpenAI 所提供的快速開源的tokenizer[2]。

Tokenizer 本身的功能，

將一組給定的「字符串 Text String」與「編碼 Encoding」，

拆解成「符元表 List of Tokens」。

舉例來說，

輸入字符串"tiktoken is great!"，

利用編碼器"cl100k_base"，

tiktoken 就會回傳給你符元表 ["t", "ik", "token", " is", " great", "!"] 。

將字符串轉換為符元表，

GPT模型就看得懂你在說什麼，

進一步給你回應了！

而之所以需要將文字轉換成符元表，

是因為大語言模型無法直接處理實際文字，

所以需要將文字表現為「連續值向量 Continuous-Valued Vectors」。

這一步轉換，又被稱為「嵌入 Embedding」。

Reference

[1] https://www.manning.com/books/build-a-large-language-model-from-scratch

[2] https://cookbook.openai.com/examples/how_to_count_tokens_with_tiktoken

532會員

1.8K內容數

Outline as Content

留言0

查看全部

發表第一個留言支持創作者！

王啟樺的沙龍的其他內容

080｜為何我在美國找不到持續拜訪的好書店？

2024年6月4日，我在洛杉磯收到了於6月1日在Amazon JP訂購12本書，加運費竟然只花了178美金，非常划算。回想自從2017年到美國，一直都找不到能持續拜訪的好書店。記得一開始拜訪美國的連鎖書店Barnes & Noble，對其大量展示的小說

#書店 #學習 #Amazon

【學習新東西的樂趣：每日300字啟發的力量】── 1. 透過閱讀擴展視野 2. 得到APP的利用 3. 每日分享的價值

每當我學習新東西，總是感到無比的興奮。相較於買車出遊，我更喜歡透過摸索新事物來擴展自己的眼界。 ▋透過閱讀擴展視野我主要透過購買書籍來進行探索，這也多虧父母從小到大提供的經濟支持。從幼稚園到博士畢業，我大概購買了四五千冊的書籍。父親甚至在我的房間外搭了一個鐵皮屋，專門用來存放我各式各樣

#學習 #啟發 #寫作技巧

【作為招聘人的3個重大體悟】

參與中研院統計所的暑期實習生招聘，是一次難得的經驗。作為招聘人，我學會了如何在短時間內高效篩選申請者。以下是我從中學到的三個重大體悟。 ▋體悟1 - 自傳履歷的重要性在所有提交的文件中，自傳履歷最能吸引我的注意。學校成績單和推薦信只需要2-3秒就

#招聘 #推薦信 #面試

079｜為什麼錄音卡是我語音筆記的新選擇？

自從買了Plaude錄音卡以後，許多紀錄的工作流都有改變。我第一個主要使用錄音卡的場景，是與學生開會的時候的30分鐘錄音。錄音完成後就可以在APP上用AI辨識成逐字稿，並且產生一個簡便的會議紀要。這樣子每次學生開會的紀錄變得更加簡單，之後研究好

【3個步驟，讓你的學術工作更高效】

學術界的彈性工時為研究人員帶來了更多的自由。這篇文章介紹了一種簡單而有效的方法來規劃你的工作日，提升工作效率。通過這個方法，你將能夠更好地管理時間，專注於重要的任務。 ▋步驟1 - 制定135任務計劃每個工作日早晨，拿出你的律構本 Legal P

078｜為何寫作是焦慮的有效解藥？

焦慮的反面是具體。在得到APP上看到這句話，十分有共鳴。每當事情一多，自己能控制的部分又有限，總會燃起焦慮的情緒。以前總是會想很多，但經驗上其實這些想太多的事情都不會發生。可能事情的確都有命運的安排，該怎樣發生的事情就會怎樣發生。事

#寫作 #焦慮 #拖延

080｜為何我在美國找不到持續拜訪的好書店？

#書店 #學習 #Amazon

【學習新東西的樂趣：每日300字啟發的力量】── 1. 透過閱讀擴展視野 2. 得到APP的利用 3. 每日分享的價值

#學習 #啟發 #寫作技巧

【作為招聘人的3個重大體悟】

#招聘 #推薦信 #面試

079｜為什麼錄音卡是我語音筆記的新選擇？

【3個步驟，讓你的學術工作更高效】

078｜為何寫作是焦慮的有效解藥？

#寫作 #焦慮 #拖延

你可能也想看

Google News 追蹤

筱涵｜Hannah的沙龍

2025/01/02

【生活記事】AI人工智慧解籤｜慈母籤｜線上求籤｜科技與玄學

嘿，大家新年快樂~ 新年大家都在做什麼呢？跨年夜的我趕工製作某個外包設計案，在工作告一段落時趕上倒數。然後和兩個小孩過了一個忙亂的元旦。在深夜時刻，看到朋友傳來的解籤網站，興致勃勃熬夜體驗了一下，覺得非常好玩，或許有人玩過了，但還是想寫上來分享紀錄一下~