Learn AI 不 BI

AI說書 - 從0開始 - 286 | Word2Vec Tokenization 交互關係

發佈於三分鐘學AI (2)

更新於 2025/01/04發佈於 2025/01/04閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

只要一切順利，沒有人會去考慮預訓練的 Tokenizer，這就像現實生活中一樣，我們可以多年駕駛一輛車而不去想引擎的問題。然後有一天，車子突然拋錨了，我們才開始試圖找出解釋原因。同樣的情況也發生在預訓練的 Tokenizer 上，有時候，結果並不是我們預期的，例如，在《獨立宣言》文本的上下文中，某些詞組不太合適，正如我們在下圖中看到的那樣：

raw-image

儘管 Tokenizer 將蛋糕和章節計算為具有高餘弦相似度值，但它們並不適合在一起
自由是指言論自由，而版權是指免費電子書的編輯所寫的註釋
pay 和 bill 在日常英語中是一詞多義的意思，例如，bill 表示支付金額，但也指權利法案

在繼續之前，讓我們花點時間澄清一些要點，QC 指的是質量控制，在任何戰略性企業項目中，QC 是必須的，輸出的質量將決定關鍵項目的存續，如果該項目不是戰略性的，錯誤有時可以接受，而在戰略性項目中，即使是少量錯誤也可能引發風險管理審計的介入，以決定該項目是否應該繼續或中止。

從質量控制和風險管理的角度來看，對不相關的數據集進行 Tokenization (即，包含太多無用的詞語或缺少關鍵詞語) 會使 Embedding 算法混亂，從而產生「糟糕的結果」，這就是為什麼我在本章中鬆散地使用「Tokenization」這個詞，包括一些 Embedding 過程，因為它們相互影響。

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

Learn AI 不 BI

190會員

502內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言0

查看全部

發表第一個留言支持創作者！

Learn AI 不 BI 的其他內容

AI說書 - 從0開始 - 285 | AI 人工品質控制

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers 將逐漸接管大多數複雜的自然語言處理任務，然而，人類的干預仍然是必不可少的，正確的方法是訓練一個 Transformers，實現它，控制輸出，並

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 284 | 語言訓練資料的準備建議

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。訓練好的模型會像學習了一種語言的人一樣運作，它會理解自己能理解的內容，並從輸入數據中學習，輸入數據應該經過與第一步相同的預處理過程，並將新信息添加到訓練數據集中，訓練數

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 283 | 語言訓練資料的準備建議

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Raffel 等人於 2019 定義了標準文字到文字 T5 Transformer 模型，他們還走得更遠，他們為打破未經預處理就使用原始資料的神話做出了貢獻，預處理資料

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 282 | 第十章目錄

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。子詞 Tokenizer 展示了 Tokenizer 如何影響 Transformer 模型的訓練和性能，我們將了解如何檢測哪種子詞 Tokenizer 被用來創建詞典

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 281 | 第十章引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在研究 Transformer 模型時，我們往往專注於它們的架構以及用來訓練它們的數據集，本書涵蓋了原始 Transformer、BERT、RoBERTa、ChatGP

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 285 | AI 人工品質控制

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers 將逐漸接管大多數複雜的自然語言處理任務，然而，人類的干預仍然是必不可少的，正確的方法是訓練一個 Transformers，實現它，控制輸出，並

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 284 | 語言訓練資料的準備建議

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。訓練好的模型會像學習了一種語言的人一樣運作，它會理解自己能理解的內容，並從輸入數據中學習，輸入數據應該經過與第一步相同的預處理過程，並將新信息添加到訓練數據集中，訓練數

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 283 | 語言訓練資料的準備建議

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Raffel 等人於 2019 定義了標準文字到文字 T5 Transformer 模型，他們還走得更遠，他們為打破未經預處理就使用原始資料的神話做出了貢獻，預處理資料

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 282 | 第十章目錄

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。子詞 Tokenizer 展示了 Tokenizer 如何影響 Transformer 模型的訓練和性能，我們將了解如何檢測哪種子詞 Tokenizer 被用來創建詞典

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 281 | 第十章引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在研究 Transformer 模型時，我們往往專注於它們的架構以及用來訓練它們的數據集，本書涵蓋了原始 Transformer、BERT、RoBERTa、ChatGP

#AI #ai #PromptEngineering

你可能也想看

Google News 追蹤

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型，並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing，現

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 71

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 37 到 AI說書 - 從0開始 - 70 ，我們完成書籍：Transformers for Natural Language Proc

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI #ai #PositionalEncoding

Learn AI 不 BI

AI說書 - 從0開始 - 47

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 41中，提及 Transformer 的 Encoder 架構如下圖所示：此外我已經在AI說書 - 從0開始 - 42中，

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 43

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在AI說書 - 從0開始 - 42中，見識了 Tokenizer 做的事情了，以下來羅列幾個要點：它將原始文字轉成小寫有可能將原始文字再進行切割通常 T

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 40

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作，抑或是 'Token-to-Token' 操作，白話來講就是：「對於句子中

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 36

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從AI說書 - 從0開始 - 0到AI說書 - 從0開始 - 35，我們完成書籍：Transformers for Natural Language Processin

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 28

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer模型驅動的人工智慧正在將無所不在的一切連接起來，機器直接與其他機器通訊，人工智慧驅動的物聯網訊號無需人工干預即可觸發自動決策。自然語言處理演算法

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 23

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 22解釋Foundation Model與Engines意涵後，我們來試用看看ChatGPT。嘗試問以下問題：Provide a

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 18

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型，並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing，現

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 71

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 37 到 AI說書 - 從0開始 - 70 ，我們完成書籍：Transformers for Natural Language Proc

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI #ai #PositionalEncoding

Learn AI 不 BI

AI說書 - 從0開始 - 47

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 41中，提及 Transformer 的 Encoder 架構如下圖所示：此外我已經在AI說書 - 從0開始 - 42中，

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 43

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在AI說書 - 從0開始 - 42中，見識了 Tokenizer 做的事情了，以下來羅列幾個要點：它將原始文字轉成小寫有可能將原始文字再進行切割通常 T

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 40

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作，抑或是 'Token-to-Token' 操作，白話來講就是：「對於句子中

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 36

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從AI說書 - 從0開始 - 0到AI說書 - 從0開始 - 35，我們完成書籍：Transformers for Natural Language Processin

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 28

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer模型驅動的人工智慧正在將無所不在的一切連接起來，機器直接與其他機器通訊，人工智慧驅動的物聯網訊號無需人工干預即可觸發自動決策。自然語言處理演算法

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 23

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 22解釋Foundation Model與Engines意涵後，我們來試用看看ChatGPT。嘗試問以下問題：Provide a

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 18

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI #ai #PromptEngineering