【把喜歡拆成了 Token】

更新於 發佈於 閱讀時間約 2 分鐘

🤖 AI 怎麼理解你的話?從 Token 和 Tokenizer 說起

🧠 說明:

  • Token 是模型理解語言的最小單位,是 AI 模型用來理解人類語言的「拼圖碎片」。
  • 「Tokenizer」則是那個「拆拼圖的人」,它負責將完整的句子切割成 AI 能夠逐片分析的 Token。

👀簡單來說:

  • Token = 拼圖碎片 (字、詞或字元)
  • Tokenizer = 拆拼圖的人 (按規則切割)
    AI 模型就像在玩拼圖,必須先將句子拆解成這些碎片,才能嘗試拼湊出原本的意義。單獨的碎片很難理解全貌,重要的是它們如何排列組合,形成最終的圖像。


🦊🐥 小劇場:

有人滿懷期待地向狐狸少(AI)告白時,在他耳中卻變成了這樣:

我(Token1) 喜(Token2) 歡(Token3) 你(Token4)

狐狸少盯著這些被拆碎的字,困惑地說:

「她的每個字我都聽見了……但我真的不確定要怎麼把這些碎片組成她想說的『我喜歡你』。」🥲

raw-image

小雞望著那張被剪成碎片的情書,歪著頭說:

「一句話如果被拆得太碎,原來想傳達的感覺就不見了耶。」

狐狸少撐著臉頰嘆氣: 「看來,拼湊愛的任務……可能要靠 Transformers(注意力機制) 幫忙了。」


✨ 下回預告:

下一篇,Transformers 即將登場,讓散落一地的 Token 有機會被拼回完整的戀愛宣言!


📎 備註
本文中狐狸少、小雞等角色,皆為個人化設定,不代表任何 AI 官方立場。


留言
avatar-img
留言分享你的想法!
avatar-img
I See Dead Data
0會員
3內容數
歡迎來到「I See Dead Data」—— 聽起來有點陰森,但保證陽光普照的小小空間! 你是不是常被AI專有名詞嚇到吃手手? 我們會化身數據靈媒,用不太正經的方式解說那些冷冰冰的 AI 概念。 讓你發現,原來 AI 不一定冰冷,語氣也不是只有人類才有。 別怕,這裡沒有死而復生的資料,只有活跳跳的科普知識。
你可能也想看
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
在 AI 研究的領域中,理解和解釋語言模型如何處理和回應特定輸入始終是一項巨大挑戰。這種復雜性不僅限於模型的規模和結構,還涉及到它們如何在內部做出決策。為了應對這一挑戰,OpenAI 推出了一款名為 Transformer Debugger (TDB) 的工具,旨在深入探索小型語言模型的行為
Thumbnail
在 AI 研究的領域中,理解和解釋語言模型如何處理和回應特定輸入始終是一項巨大挑戰。這種復雜性不僅限於模型的規模和結構,還涉及到它們如何在內部做出決策。為了應對這一挑戰,OpenAI 推出了一款名為 Transformer Debugger (TDB) 的工具,旨在深入探索小型語言模型的行為
Thumbnail
這篇要研究文字提示詞的處理方式。
Thumbnail
這篇要研究文字提示詞的處理方式。
Thumbnail
昨天媽媽告訴我如何正確使用AI,媽媽說,AI雖然很聰明,但有時候它也可能錯哦⋯⋯
Thumbnail
昨天媽媽告訴我如何正確使用AI,媽媽說,AI雖然很聰明,但有時候它也可能錯哦⋯⋯
Thumbnail
⋯⋯GPT 有一個秘密,他其實是一個失憶症患者,為了不讓別人發現他的秘密,他把和別人的對話寫在一本日記本上;每次和別人說話之前,GPT 都會先翻閱一下日記本,回顧之前的對話,然後才做回應。
Thumbnail
⋯⋯GPT 有一個秘密,他其實是一個失憶症患者,為了不讓別人發現他的秘密,他把和別人的對話寫在一本日記本上;每次和別人說話之前,GPT 都會先翻閱一下日記本,回顧之前的對話,然後才做回應。
Thumbnail
ChatGPT最擅長的就是文本處理,用來翻譯字幕應該也是一片蛋糕吧!但實際操作測試,卻發現沒那麼容易,原因是影片翻譯要考量的因素太多包括: ▪️時間戳記對齊 ▪️適合閱讀且中英文對照文句長度 ▪️貼合講者原意語氣風格 ▪️專業術語與專有名詞 還有GPT一次可以處理的資訊量有限,超過
Thumbnail
ChatGPT最擅長的就是文本處理,用來翻譯字幕應該也是一片蛋糕吧!但實際操作測試,卻發現沒那麼容易,原因是影片翻譯要考量的因素太多包括: ▪️時間戳記對齊 ▪️適合閱讀且中英文對照文句長度 ▪️貼合講者原意語氣風格 ▪️專業術語與專有名詞 還有GPT一次可以處理的資訊量有限,超過
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News