AI說書 - 從0開始 - 289 | Tokenizer 重要性範例之展示 1

發佈於三分鐘學AI (2)

更新於 2025/01/07發佈於 2025/01/07閱讀時間約 1 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

首先展示「freedom」及「liberty」兩詞之間的相似度計算結果：

word1 = "freedom" 
word2 = "liberty"
print("Similarity between", word1, "and", word2, "is", similarity(word1, word2))

結果為：

raw-image

看起來合理。

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

Learn AI 不 BI

216會員

547內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言

留言分享你的想法！

Learn AI 不 BI 的其他內容

AI說書 - 從0開始 - 288 | Tokenizer 重要性範例之 Embedding 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 287 | Tokenizer 重要性範例之資料準備，接著來執行 Tokenization： sample = open("text

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 287 | Tokenizer 重要性範例之資料準備

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們先匯入必須要的程式庫： !pip install gensim import nltk nltk.download('punkt') import math i

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 286 | Word2Vec Tokenization 交互關係

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。只要一切順利，沒有人會去考慮預訓練的 Tokenizer，這就像現實生活中一樣，我們可以多年駕駛一輛車而不去想引擎的問題。然後有一天，車子突然拋錨了，我們才開始試圖找出

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 285 | AI 人工品質控制

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers 將逐漸接管大多數複雜的自然語言處理任務，然而，人類的干預仍然是必不可少的，正確的方法是訓練一個 Transformers，實現它，控制輸出，並

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 284 | 語言訓練資料的準備建議

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。訓練好的模型會像學習了一種語言的人一樣運作，它會理解自己能理解的內容，並從輸入數據中學習，輸入數據應該經過與第一步相同的預處理過程，並將新信息添加到訓練數據集中，訓練數

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 283 | 語言訓練資料的準備建議

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Raffel 等人於 2019 定義了標準文字到文字 T5 Transformer 模型，他們還走得更遠，他們為打破未經預處理就使用原始資料的神話做出了貢獻，預處理資料

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 288 | Tokenizer 重要性範例之 Embedding 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 287 | Tokenizer 重要性範例之資料準備，接著來執行 Tokenization： sample = open("text

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 287 | Tokenizer 重要性範例之資料準備

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們先匯入必須要的程式庫： !pip install gensim import nltk nltk.download('punkt') import math i

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 286 | Word2Vec Tokenization 交互關係

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。只要一切順利，沒有人會去考慮預訓練的 Tokenizer，這就像現實生活中一樣，我們可以多年駕駛一輛車而不去想引擎的問題。然後有一天，車子突然拋錨了，我們才開始試圖找出

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 285 | AI 人工品質控制

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers 將逐漸接管大多數複雜的自然語言處理任務，然而，人類的干預仍然是必不可少的，正確的方法是訓練一個 Transformers，實現它，控制輸出，並

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 284 | 語言訓練資料的準備建議

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。訓練好的模型會像學習了一種語言的人一樣運作，它會理解自己能理解的內容，並從輸入數據中學習，輸入數據應該經過與第一步相同的預處理過程，並將新信息添加到訓練數據集中，訓練數

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 283 | 語言訓練資料的準備建議

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Raffel 等人於 2019 定義了標準文字到文字 T5 Transformer 模型，他們還走得更遠，他們為打破未經預處理就使用原始資料的神話做出了貢獻，預處理資料

#AI #ai #PromptEngineering

你可能也想看

Google News 追蹤

金融人類學徒

川普核彈炸了

該來的終究還是來了度過焦躁不安的一整周，學徒老人家我的不安感等比級數的襲來，自3/19寫了第一篇關於<巴克萊銀行：倉促撤退>的報告，看到市場上的機構法人有如大洪水、地震來臨前夕開始竄逃撤退。海湖莊園協議接著，在3/31與4/2兩天接著寫了川普與他的財經團隊在海湖莊園豪

#危機 #川普 #金融海嘯

MimiVsJames的美股投資分享

本週關稅與CPI 將至：美股進入反彈或持續下跌的臨界點

空單爆天量、技術指標超賣、情緒恐慌到極致：美股嘎空行情有機會啟動嗎？重點摘要：技術面極度超賣，反彈條件醞釀中，但尚未明確止穩 SPY 與 QQQ 的重要指標，如MACD、KDJ、RSI等指標進入極端超賣區，但尚未出現底部鈍化或明確反轉訊號，技術面仍屬空方主導。連續出現跳空缺口，空方動

#美股 #美股投資 #風險

方格子 vocus 官方沙龍

「方格人氣王」挑戰賽🏆！發文互動拿禮物，登上首頁曝光！

全新 vocus 挑戰活動「方格人氣王」來啦～四大挑戰任你選，留言 / 愛心 / 瀏覽數大 PK，還有新手專屬挑戰！無論你是 vocus 上活躍創作者或剛加入的新手，都有機會被更多人看見，獲得站上版位曝光＆豐富獎勵！🏆

#方格人氣王 #方格留言王 #方格愛心王

Learn AI 不 BI

AI說書 - 從0開始 - 109 | BLEU 評分機制前言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 103

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 102 說要窺探 WMT 資料集，以下著手資料集下載程式： import urllib.request # Define the

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI #ai #PositionalEncoding

Learn AI 不 BI

AI說書 - 從0開始 - 61

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 58

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 43

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在AI說書 - 從0開始 - 42中，見識了 Tokenizer 做的事情了，以下來羅列幾個要點：它將原始文字轉成小寫有可能將原始文字再進行切割通常 T

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 40

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作，抑或是 'Token-to-Token' 操作，白話來講就是：「對於句子中

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 30

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。生成式人工智慧模糊了雲端平台、框架、函式庫、語言和模型之間的界線，以下展開幾項事實： OpenAI 部署了一個Transformer API，幾乎不需要程式設計。

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 28

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer模型驅動的人工智慧正在將無所不在的一切連接起來，機器直接與其他機器通訊，人工智慧驅動的物聯網訊號無需人工干預即可觸發自動決策。自然語言處理演算法

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 18

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI #ai #PromptEngineering

金融人類學徒

川普核彈炸了

該來的終究還是來了度過焦躁不安的一整周，學徒老人家我的不安感等比級數的襲來，自3/19寫了第一篇關於<巴克萊銀行：倉促撤退>的報告，看到市場上的機構法人有如大洪水、地震來臨前夕開始竄逃撤退。海湖莊園協議接著，在3/31與4/2兩天接著寫了川普與他的財經團隊在海湖莊園豪

#危機 #川普 #金融海嘯

MimiVsJames的美股投資分享

本週關稅與CPI 將至：美股進入反彈或持續下跌的臨界點

空單爆天量、技術指標超賣、情緒恐慌到極致：美股嘎空行情有機會啟動嗎？重點摘要：技術面極度超賣，反彈條件醞釀中，但尚未明確止穩 SPY 與 QQQ 的重要指標，如MACD、KDJ、RSI等指標進入極端超賣區，但尚未出現底部鈍化或明確反轉訊號，技術面仍屬空方主導。連續出現跳空缺口，空方動

#美股 #美股投資 #風險

方格子 vocus 官方沙龍

「方格人氣王」挑戰賽🏆！發文互動拿禮物，登上首頁曝光！

全新 vocus 挑戰活動「方格人氣王」來啦～四大挑戰任你選，留言 / 愛心 / 瀏覽數大 PK，還有新手專屬挑戰！無論你是 vocus 上活躍創作者或剛加入的新手，都有機會被更多人看見，獲得站上版位曝光＆豐富獎勵！🏆

#方格人氣王 #方格留言王 #方格愛心王

Learn AI 不 BI

AI說書 - 從0開始 - 109 | BLEU 評分機制前言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 103

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 102 說要窺探 WMT 資料集，以下著手資料集下載程式： import urllib.request # Define the

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI #ai #PositionalEncoding

Learn AI 不 BI

AI說書 - 從0開始 - 61

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 58

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經完成： Single-Head Attention 數學說明：AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明：AI

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 43

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在AI說書 - 從0開始 - 42中，見識了 Tokenizer 做的事情了，以下來羅列幾個要點：它將原始文字轉成小寫有可能將原始文字再進行切割通常 T

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 40

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作，抑或是 'Token-to-Token' 操作，白話來講就是：「對於句子中

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 30

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。生成式人工智慧模糊了雲端平台、框架、函式庫、語言和模型之間的界線，以下展開幾項事實： OpenAI 部署了一個Transformer API，幾乎不需要程式設計。

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 28

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer模型驅動的人工智慧正在將無所不在的一切連接起來，機器直接與其他機器通訊，人工智慧驅動的物聯網訊號無需人工干預即可觸發自動決策。自然語言處理演算法

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 18

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI #ai #PromptEngineering