AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization

更新 發佈閱讀 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


首先我們先匯入文本,下面程式載入一個包含法國哲學家、科學家和數學家笛卡爾所寫內容的檔案:

!curl -L https://raw.githubusercontent.com/Denis2054/Transformers-for-NLP-and-Computer-Vision-3rd-Edition/master/Chapter11/Descartes.txt --output "Descartes.txt"


然後我們讀取檔案並替換換行控制符 \n,得到一個連續的字串:

with open('Descartes.txt', 'r', encoding = 'utf-8') as file: 
descartes_book = file.read().replace('\n', '')


我們將使用 Word Tokenizer,Byte-Level Tokenizer 在 Bytes 層級上運行,而 NLTK 中的 word_tokenize 函數將 Text 為 Word,兩種方法都有不同的目的,並在不同的語言粒度級別上運行:

from nltk.tokenize import word_tokenize 
import nltk
nltk.download('punkt_tab')
tokens = word_tokenize(descartes_book)
留言
avatar-img
留言分享你的想法!
avatar-img
Learn AI 不 BI
240會員
882內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
Learn AI 不 BI的其他內容
2025/03/12
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 本章的重點在於,原始的 Prompt 匯入 GPT 模型可能效果不好,因此納入 Embedding 資料庫,將此 Prompt 轉成 Embedding,再將此 Emb
2025/03/12
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 本章的重點在於,原始的 Prompt 匯入 GPT 模型可能效果不好,因此納入 Embedding 資料庫,將此 Prompt 轉成 Embedding,再將此 Emb
2025/03/10
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 整理目前手上有的素材: AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E
Thumbnail
2025/03/10
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 整理目前手上有的素材: AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E
Thumbnail
2025/03/09
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 整理目前手上有的素材: AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E
Thumbnail
2025/03/09
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 整理目前手上有的素材: AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E
Thumbnail
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization AI說書 - 從0開始 - 315 | 文本處理以降低 T
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization AI說書 - 從0開始 - 315 | 文本處理以降低 T
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization AI說書 - 從0開始 - 315 | 文本處理以降低 T
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization AI說書 - 從0開始 - 315 | 文本處理以降低 T
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧目前手上有的素材: 載入文本並執行 Tokenization:AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News