Learn AI 不 BI

AI說書 - 從0開始 - 287 | Tokenizer 重要性範例之資料準備

發佈於三分鐘學AI (2)

更新於 2025/01/05發佈於 2025/01/05閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

我們先匯入必須要的程式庫：

!pip install gensim
import nltk
nltk.download('punkt')
import math 
import numpy as np
from nltk.tokenize import sent_tokenize, word_tokenize 
import gensim
from gensim.models import Word2Vec
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings(action = 'ignore')

再匯入資料集：

!curl -L https://raw.githubusercontent.com/Denis2054/Transformers-for-NLP-and-Computer-Vision-3rd-Edition/master/Chapter10/text.txt --output "text.txt"

我們的資料集 text.txt 包含美國獨立宣言、權利法案、大憲章、伊曼紐爾·康德的著作和其他文本。

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

Learn AI 不 BI

190會員

502內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言0

查看全部

發表第一個留言支持創作者！

Learn AI 不 BI 的其他內容

AI說書 - 從0開始 - 286 | Word2Vec Tokenization 交互關係

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。只要一切順利，沒有人會去考慮預訓練的 Tokenizer，這就像現實生活中一樣，我們可以多年駕駛一輛車而不去想引擎的問題。然後有一天，車子突然拋錨了，我們才開始試圖找出

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 285 | AI 人工品質控制

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers 將逐漸接管大多數複雜的自然語言處理任務，然而，人類的干預仍然是必不可少的，正確的方法是訓練一個 Transformers，實現它，控制輸出，並

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 284 | 語言訓練資料的準備建議

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。訓練好的模型會像學習了一種語言的人一樣運作，它會理解自己能理解的內容，並從輸入數據中學習，輸入數據應該經過與第一步相同的預處理過程，並將新信息添加到訓練數據集中，訓練數

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 283 | 語言訓練資料的準備建議

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Raffel 等人於 2019 定義了標準文字到文字 T5 Transformer 模型，他們還走得更遠，他們為打破未經預處理就使用原始資料的神話做出了貢獻，預處理資料

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 282 | 第十章目錄

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。子詞 Tokenizer 展示了 Tokenizer 如何影響 Transformer 模型的訓練和性能，我們將了解如何檢測哪種子詞 Tokenizer 被用來創建詞典

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 281 | 第十章引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在研究 Transformer 模型時，我們往往專注於它們的架構以及用來訓練它們的數據集，本書涵蓋了原始 Transformer、BERT、RoBERTa、ChatGP

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 286 | Word2Vec Tokenization 交互關係

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。只要一切順利，沒有人會去考慮預訓練的 Tokenizer，這就像現實生活中一樣，我們可以多年駕駛一輛車而不去想引擎的問題。然後有一天，車子突然拋錨了，我們才開始試圖找出

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 285 | AI 人工品質控制

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers 將逐漸接管大多數複雜的自然語言處理任務，然而，人類的干預仍然是必不可少的，正確的方法是訓練一個 Transformers，實現它，控制輸出，並

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 284 | 語言訓練資料的準備建議

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。訓練好的模型會像學習了一種語言的人一樣運作，它會理解自己能理解的內容，並從輸入數據中學習，輸入數據應該經過與第一步相同的預處理過程，並將新信息添加到訓練數據集中，訓練數

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 283 | 語言訓練資料的準備建議

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Raffel 等人於 2019 定義了標準文字到文字 T5 Transformer 模型，他們還走得更遠，他們為打破未經預處理就使用原始資料的神話做出了貢獻，預處理資料

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 282 | 第十章目錄

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。子詞 Tokenizer 展示了 Tokenizer 如何影響 Transformer 模型的訓練和性能，我們將了解如何檢測哪種子詞 Tokenizer 被用來創建詞典

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 281 | 第十章引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在研究 Transformer 模型時，我們往往專注於它們的架構以及用來訓練它們的數據集，本書涵蓋了原始 Transformer、BERT、RoBERTa、ChatGP

#AI #ai #PromptEngineering

你可能也想看

Google News 追蹤

Learn AI 不 BI

AI說書 - 從0開始 - 109 | BLEU 評分機制前言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 105 | AI 資料準備

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經有資料集在 AI說書 - 從0開始 - 103 ，必要的清理函數在 AI說書 - 從0開始 - 104 ，現在把它們湊在一起，如下： # load Eng

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 80

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 xxx ，ChatGPT 除了產生程式周邊的文字描述，事實上它還會回覆程式語法的指令 : !pip install scikit-learn import nu

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI #ai #PositionalEncoding

Learn AI 不 BI

AI說書 - 從0開始 - 59

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 58

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 57

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 56

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 54

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 43

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在AI說書 - 從0開始 - 42中，見識了 Tokenizer 做的事情了，以下來羅列幾個要點：它將原始文字轉成小寫有可能將原始文字再進行切割通常 T

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 109 | BLEU 評分機制前言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 105 | AI 資料準備

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經有資料集在 AI說書 - 從0開始 - 103 ，必要的清理函數在 AI說書 - 從0開始 - 104 ，現在把它們湊在一起，如下： # load Eng

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 80

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 xxx ，ChatGPT 除了產生程式周邊的文字描述，事實上它還會回覆程式語法的指令 : !pip install scikit-learn import nu

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI #ai #PositionalEncoding

Learn AI 不 BI

AI說書 - 從0開始 - 59

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 58

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 57

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 56

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 54

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 43

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在AI說書 - 從0開始 - 42中，見識了 Tokenizer 做的事情了，以下來羅列幾個要點：它將原始文字轉成小寫有可能將原始文字再進行切割通常 T

#AI #ai #PromptEngineering