2024-07-16|閱讀時間 ‧ 約 23 分鐘

學習大語言模型 101

步驟 1: 計劃每天花點時間學習大語言模型的技術部分。


步驟 2: 選擇合適的教材。我選擇了Manning出版的《Build a Large Language Model (From Scratch)》,這本書有配套的程式碼和詳細的講解,是我信賴的學習素材。


步驟 3: 瀏覽教材中的程式碼範例。例如,今天我學習的第一段程式碼是:


```python

from importlib.metadata import version


import tiktoken

import torch


print("torch version:", version("torch"))

print("tiktoken version:", version("tiktoken"))

```


步驟 4: 理解程式碼中的新概念。對於我來說,第一個遇到的問題是`tiktoken`。


步驟 5: 探索新工具的功能。tiktoken 是OpenAI提供的快速開源的tokenizer。Tokenizer 的功能是將一組給定的「字符串 Text String」與「編碼 Encoding」,拆解成「符元表 List of Tokens」。


步驟 6: 練習使用工具並理解其輸出。舉例來說,輸入字符串"tiktoken is great!",利用編碼器"cl100k_base",tiktoken 就會回傳符元表 ["t", "ik", "token", " is", " great", "!"]。


步驟 7: 理解轉換過程及其重要性。將字符串轉換為符元表是因為大語言模型無法直接處理實際文字,需要將文字表現為「連續值向量 Continuous-Valued Vectors」,這一步轉換稱為「嵌入 Embedding」。


從小處著手。


逐步累積。

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.