tokenizer
含有「tokenizer」共 27 篇內容
全部內容
發佈日期由新至舊
の倉的程式小天地
2025/07/13
【2025 夏日精選-4.5】解析文字的分詞器-Tokenizer (補)
上一篇只講了 Tokenizer 最快的用法,但仔細想想還是寫得再詳細一點好了 tokenizer() 可以將一串句子變成電腦看得懂的編碼,但他其實包含三個動作 1. 將句子拆分成一個一個字詞 2. 將字詞轉換成編碼 3. 添加 Special Token
#
這個人要做畢專
#
程式設計
#
筆記
2
留言
の倉的程式小天地
2025/07/13
【2025 夏日精選-4】解析文字的分詞器-Tokenizer
今天要講的是 Hugging Face 貼心準備的工具包,歸屬在 Transformers 中的 Tokenizer (分詞器)
#
這個人要做畢專
#
程式設計
#
筆記
1
留言
の倉的程式小天地
2025/07/13
【2025 夏日精選-3】要讓電腦看得懂,第一步要先分詞
電腦沒辦法理解人類的語言,所以需要先將文字轉換成電腦能讀懂的數字,而我們不可能把一整句話直接編碼,例如:"I love you."=1、"I love him."=2...,這樣編碼到最後會變成天文數字,所以在那之前我們需要先將一句話分成最小單位,也就是「詞」
#
這個人要做畢專
#
程式設計
#
筆記
1
1
Learn AI 不 BI
2024/06/22
AI說書 - 從0開始 - 40
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作,抑或是 'Token-to-Token' 操作,白話來講就是:「對於句子中
#
AI
#
ai
#
PromptEngineering
10
留言
Learn AI 不 BI
2024/06/22
AI說書 - 從0開始 - 39
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先先展示 Transformer 的架構圖: 可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件,因為 Recurrence 已被摒棄。
#
AI
#
ai
#
PromptEngineering
5
留言
Learn AI 不 BI
2024/06/22
AI說書 - 從0開始 - 38
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 既然要談論 Transformer 的 Attention 機制,我們必須要談論以下主題: Transformer 架構 自注意力機制 編碼與解碼 Embedd
#
AI
#
ai
#
PromptEngineering
4
留言
Learn AI 不 BI
2024/06/20
AI說書 - 從0開始 - 37
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 2017 年 12 月,Google Brain 和 Google Research 發表了 Vaswani 等人的開創性論文《Attention Is All You
#
AI
#
ai
#
PromptEngineering
6
留言
Learn AI 不 BI
2024/06/20
AI說書 - 從0開始 - 36
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從AI說書 - 從0開始 - 0到AI說書 - 從0開始 - 35,我們完成書籍:Transformers for Natural Language Processin
#
AI
#
ai
#
PromptEngineering
5
留言
Learn AI 不 BI
2024/06/20
AI說書 - 從0開始 - 35
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從AI說書 - 從0開始 - 0到AI說書 - 從0開始 - 34,我們談了許多 Transformer 議題,以下來做條列性結論: Transformer 迫使人工
#
AI
#
ai
#
PromptEngineering
6
留言
Learn AI 不 BI
2024/06/20
AI說書 - 從0開始 - 34
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 33中,見識了基於 Transformer 的 Google 翻譯威力,評論如下: Google 翻譯似乎已經解決了 Corefer
#
AI
#
ai
#
PromptEngineering
8
留言