我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization
- 文本處理以降低 Tokenization 負擔:AI說書 - 從0開始 - 315 | 文本處理以降低 Tokenization 負擔
- Tokenization 後基本資訊窺探與 Embedding 訓練:AI說書 - 從0開始 - 316 | Tokenization 後基本資訊窺探與 Embedding 訓練
- Embedding 模型描述:AI說書 - 從0開始 - 317 | Embedding 模型描述
- Embedding 模型描述:AI說書 - 從0開始 - 318 | Embedding 模型描述
- 檢視 Embedding 是否包含某詞彙:AI說書 - 從0開始 - 319 | 檢視 Embedding 是否包含某詞彙
- Embedding 後詞彙相似度計算:AI說書 - 從0開始 - 320 | Embedding 後詞彙相似度計算
Adding an index to the words creates a dictionary. The embeddings are the representation of the words in the dictionary,Embedding 後的詞彙與其 ID 的映射關係,可以透過以下方式窺探:
for word, index in model.wv.key_to_index.items():
print(f"Word: {word}, Index: {index}")
結果為:
