HuggingFace
含有「HuggingFace」共 300 篇內容
全部內容
發佈日期由新至舊
Learn AI 不 BI
2025/01/14
AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 模型通常使用 Byte-Pair Encoding (BPE) 和 WordPiece Tokenization,接著,我們將了解為什麼選擇 S
#
AI
#
ai
#
PromptEngineering
6
留言
Learn AI 不 BI
2025/01/13
AI說書 - 從0開始 - 294 | Tokenizer 重要性範例之展示 6
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 替換生僻字詞本身就是一個項目,這項工作是為特定任務和項目保留的,例如,假設公司預算可以支付建立航空知識庫的成本,在這種情況下,值得花時間查詢 Tokenized Dir
#
AI
#
ai
#
PromptEngineering
6
留言
Learn AI 不 BI
2025/01/12
AI說書 - 從0開始 - 293 | Tokenizer 重要性範例之展示 4、5
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著展示「pie」及「logic」兩詞之間的相似度計算結果: word1 = "pie" word2 = "logic" print("Similarity", s
#
AI
#
ai
#
PromptEngineering
11
留言
Learn AI 不 BI
2025/01/11
AI說書 - 從0開始 - 292 | Tokenizer 重要性範例之展示 3
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著展示「etext」及「declaration」兩詞之間的相似度計算結果: word1 = "etext" word2 = "declaration" print(
#
AI
#
ai
#
PromptEngineering
5
留言
Learn AI 不 BI
2025/01/09
AI說書 - 從0開始 - 291 | Tokenizer 重要性範例之展示 2 省思
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 290 | Tokenizer 重要性範例之展示 2 中,我們給了一個範例,當中包含未知的字詞,假設一個 AI 團隊發現了這個問題並嘗試
#
AI
#
ai
#
PromptEngineering
8
留言
Learn AI 不 BI
2025/01/08
AI說書 - 從0開始 - 290 | Tokenizer 重要性範例之展示 2
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著展示「corporations」及「rights」兩詞之間的相似度計算結果: word1 = "corporations" word2 = "rights" pr
#
AI
#
ai
#
PromptEngineering
19
留言
Learn AI 不 BI
2025/01/07
AI說書 - 從0開始 - 289 | Tokenizer 重要性範例之展示 1
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 首先展示「freedom」及「liberty」兩詞之間的相似度計算結果: word1 = "freedom" word2 = "liberty" print("Si
#
AI
#
ai
#
PromptEngineering
8
留言
Learn AI 不 BI
2025/01/06
AI說書 - 從0開始 - 288 | Tokenizer 重要性範例之 Embedding 訓練
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 287 | Tokenizer 重要性範例之資料準備,接著來執行 Tokenization: sample = open("text
#
AI
#
ai
#
PromptEngineering
6
留言
Learn AI 不 BI
2025/01/05
AI說書 - 從0開始 - 287 | Tokenizer 重要性範例之資料準備
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們先匯入必須要的程式庫: !pip install gensim import nltk nltk.download('punkt') import math i
#
AI
#
ai
#
PromptEngineering
11
1
旅人小萌
喜歡
謝謝您的分享❤️
Learn AI 不 BI
2025/01/04
AI說書 - 從0開始 - 286 | Word2Vec Tokenization 交互關係
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 只要一切順利,沒有人會去考慮預訓練的 Tokenizer,這就像現實生活中一樣,我們可以多年駕駛一輛車而不去想引擎的問題。然後有一天,車子突然拋錨了,我們才開始試圖找出
#
AI
#
ai
#
PromptEngineering
7
留言