tokenizer

含有「tokenizer」共 27 篇內容

全部內容

發佈日期由新至舊

2025/07/13

【2025 夏日精選-4.5】解析文字的分詞器-Tokenizer (補)

上一篇只講了 Tokenizer 最快的用法，但仔細想想還是寫得再詳細一點好了 tokenizer() 可以將一串句子變成電腦看得懂的編碼，但他其實包含三個動作 1. 將句子拆分成一個一個字詞 2. 將字詞轉換成編碼 3. 添加 Special Token

#這個人要做畢專 #程式設計 #筆記

の倉的程式小天地

2025/07/13

【2025 夏日精選-4】解析文字的分詞器-Tokenizer

今天要講的是 Hugging Face 貼心準備的工具包，歸屬在 Transformers 中的 Tokenizer (分詞器)

#這個人要做畢專 #程式設計 #筆記

の倉的程式小天地

2025/07/13

【2025 夏日精選-3】要讓電腦看得懂，第一步要先分詞

電腦沒辦法理解人類的語言，所以需要先將文字轉換成電腦能讀懂的數字，而我們不可能把一整句話直接編碼，例如："I love you."=1、"I love him."=2...，這樣編碼到最後會變成天文數字，所以在那之前我們需要先將一句話分成最小單位，也就是「詞」

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作，抑或是 'Token-to-Token' 操作，白話來講就是：「對於句子中

#AI #ai #PromptEngineering

Learn AI 不 BI

2024/06/22

AI說書 - 從0開始 - 39

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。首先先展示 Transformer 的架構圖：可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件，因為 Recurrence 已被摒棄。

#AI #ai #PromptEngineering

Learn AI 不 BI

2024/06/22

AI說書 - 從0開始 - 38

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。既然要談論 Transformer 的 Attention 機制，我們必須要談論以下主題： Transformer 架構自注意力機制編碼與解碼 Embedd

#AI #ai #PromptEngineering

Learn AI 不 BI

2024/06/20

AI說書 - 從0開始 - 37

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 2017 年 12 月，Google Brain 和 Google Research 發表了 Vaswani 等人的開創性論文《Attention Is All You

#AI #ai #PromptEngineering

Learn AI 不 BI

2024/06/20

AI說書 - 從0開始 - 36

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從AI說書 - 從0開始 - 0到AI說書 - 從0開始 - 35，我們完成書籍：Transformers for Natural Language Processin

#AI #ai #PromptEngineering

Learn AI 不 BI

2024/06/20

AI說書 - 從0開始 - 35

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從AI說書 - 從0開始 - 0到AI說書 - 從0開始 - 34，我們談了許多 Transformer 議題，以下來做條列性結論： Transformer 迫使人工

#AI #ai #PromptEngineering

Learn AI 不 BI

2024/06/20

AI說書 - 從0開始 - 34

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在AI說書 - 從0開始 - 33中，見識了基於 Transformer 的 Google 翻譯威力，評論如下： Google 翻譯似乎已經解決了 Corefer

#AI #ai #PromptEngineering

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌