學習大語言模型 101

更新於 發佈於 閱讀時間約 2 分鐘

步驟 1: 計劃每天花點時間學習大語言模型的技術部分。


步驟 2: 選擇合適的教材。我選擇了Manning出版的《Build a Large Language Model (From Scratch)》,這本書有配套的程式碼和詳細的講解,是我信賴的學習素材。


步驟 3: 瀏覽教材中的程式碼範例。例如,今天我學習的第一段程式碼是:


```python

from importlib.metadata import version


import tiktoken

import torch


print("torch version:", version("torch"))

print("tiktoken version:", version("tiktoken"))

```


步驟 4: 理解程式碼中的新概念。對於我來說,第一個遇到的問題是`tiktoken`。


步驟 5: 探索新工具的功能。tiktoken 是OpenAI提供的快速開源的tokenizer。Tokenizer 的功能是將一組給定的「字符串 Text String」與「編碼 Encoding」,拆解成「符元表 List of Tokens」。


步驟 6: 練習使用工具並理解其輸出。舉例來說,輸入字符串"tiktoken is great!",利用編碼器"cl100k_base",tiktoken 就會回傳符元表 ["t", "ik", "token", " is", " great", "!"]。


步驟 7: 理解轉換過程及其重要性。將字符串轉換為符元表是因為大語言模型無法直接處理實際文字,需要將文字表現為「連續值向量 Continuous-Valued Vectors」,這一步轉換稱為「嵌入 Embedding」。


從小處著手。


逐步累積。

留言
avatar-img
留言分享你的想法!
avatar-img
王啟樺的沙龍
573會員
1.9K內容數
Outline as Content
王啟樺的沙龍的其他內容
2025/03/29
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
2025/03/29
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
2025/01/29
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Thumbnail
2025/01/29
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Thumbnail
看更多
你可能也想看
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
這篇內容,介紹了知識傳遞的三種型態,以及GameMaker教學的分類方式。閱讀本篇指南,能夠理解GameMaker教學的整體規劃和知識結構。
Thumbnail
這篇內容,介紹了知識傳遞的三種型態,以及GameMaker教學的分類方式。閱讀本篇指南,能夠理解GameMaker教學的整體規劃和知識結構。
Thumbnail
重點先說,我將累積近九年學習圖解的知識與經驗,彙整成30個單元的「圖解力全攻略」線上課程,超狂優惠只到6/30! 立即加入「圖解力全攻略」:https://drawwin.kaik.io/courses/drawtowin 輸入drawtowin折扣碼,再折500元
Thumbnail
重點先說,我將累積近九年學習圖解的知識與經驗,彙整成30個單元的「圖解力全攻略」線上課程,超狂優惠只到6/30! 立即加入「圖解力全攻略」:https://drawwin.kaik.io/courses/drawtowin 輸入drawtowin折扣碼,再折500元
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
最近有新的訂閱者加入, 想趁這個機會再分享一次學習心法與建議給第一次練習的讀者、同學們。 如果你本身已經很熟練演算法,那隨機挑題目練習ok,可以測試觀念是否正確,並且驗證寫code的效率與正確程度。 如果是剛畢業或還在學,以前沒有打過程式競賽。 想開始有系統地增強演算法&資料結構的能力
Thumbnail
最近有新的訂閱者加入, 想趁這個機會再分享一次學習心法與建議給第一次練習的讀者、同學們。 如果你本身已經很熟練演算法,那隨機挑題目練習ok,可以測試觀念是否正確,並且驗證寫code的效率與正確程度。 如果是剛畢業或還在學,以前沒有打過程式競賽。 想開始有系統地增強演算法&資料結構的能力
Thumbnail
解決電腦上遇到的問題、證明正確性、探討效率 並且很著重溝通,說服別人你做的事是正確且有效率的。 內容: 計算模型、資料結構介紹、演算法介紹、時間複雜度介紹。
Thumbnail
解決電腦上遇到的問題、證明正確性、探討效率 並且很著重溝通,說服別人你做的事是正確且有效率的。 內容: 計算模型、資料結構介紹、演算法介紹、時間複雜度介紹。
Thumbnail
編輯的基本功,是對文字的敏感度。
Thumbnail
編輯的基本功,是對文字的敏感度。
Thumbnail
專案分享-計算機 邏輯思維:首先,要建立幾個變數與函式,方便我們作業。接下來針對每一個函式進行解釋。 讓大家可以自己動手做一個簡易的計算機
Thumbnail
專案分享-計算機 邏輯思維:首先,要建立幾個變數與函式,方便我們作業。接下來針對每一個函式進行解釋。 讓大家可以自己動手做一個簡易的計算機
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News