AI說書 - 從0開始 - 376 | Transformer 革命背景

更新於 發佈於 閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


花一點時間思考一下 AI說書 - 從0開始 - 375 | Transformer 革命背景 的內容,看起來似乎很簡單,然而,花了35年以上的時間,才推翻了圍繞著 RNN、CNN 及其思維過程的舊有信念。


T5 模型可以總結為「Text-To-Text Transfer Transformer」,因此,每個 NLP 任務都被表述為一個待解決的文本到文本問題,與許多其他模型不同,T5 模型不需要針對特定任務進行微調,每個 NLP 任務的過程都是一個文本到文本的問題,這種靈活的文本到文本方法讓我們開始探討在 T5 模型中使用前綴的方式。


Raffel 等人於 2019 年仍然面臨一個問題需要解決:統一針對特定任務的格式,其想法是找到一種方法,為提交給 Transformer 的每個任務提供一個統一的輸入格式,這樣,模型的參數可以針對所有類型的任務以一個文本到文本的格式進行訓練。


Raffel 等人於 2019 年提出在輸入序列中添加前綴,T5 前綴不僅僅是像某些 Transformer 模型中的 [CLS] 標籤或分類指示符,相反,T5 前綴包含了 Transformer 需要解決的任務的核心,前綴傳達了任務的意義,以下是一些例子:

  • translate English to German: + [sequence] for translations
  • cola sentence: + [sequence] for The Corpus of Linguistic Acceptability (CoLA)
  • stsb sentence 1: + [sequence] for semantic textual similarity benchmarks. Natural language inferences and entailment are similar problems
  • summarize + [sequence] for text summarization problems
avatar-img
217會員
551內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
留言
avatar-img
留言分享你的想法!
Learn AI 不 BI 的其他內容
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Google 的 NLP 技術革命始於 Vaswani 等人,原始 Transformer 始於 2017 年,它把我們從 NLP/NLU 的石器時代帶入了 21 世紀
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們將比較 T5 和 ChatGPT 進行摘要的不同方法,目的是理解每個模型學習摘要的方式,而不是斷言其中一個模型的表現優於另一個。選擇哪個模型將取決於 NLP 項目的
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在前七章中,我們探索了幾個 Transformer 生態系統的架構訓練、微調和使用,在第 7 章「ChatGPT 的生成式 AI 革命」中,我們發現 OpenAI 已經
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Google 的 NLP 技術革命始於 Vaswani 等人,原始 Transformer 始於 2017 年,它把我們從 NLP/NLU 的石器時代帶入了 21 世紀
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們將比較 T5 和 ChatGPT 進行摘要的不同方法,目的是理解每個模型學習摘要的方式,而不是斷言其中一個模型的表現優於另一個。選擇哪個模型將取決於 NLP 項目的
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在前七章中,我們探索了幾個 Transformer 生態系統的架構訓練、微調和使用,在第 7 章「ChatGPT 的生成式 AI 革命」中,我們發現 OpenAI 已經
本篇參與的主題活動
你有沒有發現,人生中總有幾種人讓你忍不住多看幾眼? 不是因為他們長得特別帥、家裡特別有錢,而是他們總能在混亂中找到方向、別人都沒看到的地方發現機會 甚至,你還來不及反應,他們已經在前面三步了。 這種人,你可能以為是「天才」。 但其實,他們只是「開啟了某幾種特別的能力」。 而這些能力,
從根本上說,我們之所以是我們,是因為在某個無法控制的瞬間,另一個真實存在的人回應、拒絕或重新定義了我們。AI 只會永恆地迎合我們的期望,卻無法真正突破我們的自我界限。 如果我們完全隔絕於傷害與干擾之外,我們是否同時也喪失了成為真正「人」的可能性?
我寫小說,也畫畫,剛好方格子正在進行討論 AI 的話題,就來聊一下我自己怎麼運用 AI 的吧。 首先,我並不喜歡直接用 AI 生成的東西取代人工創作,如果可以的話,我會儘可能自己手工創作,因為我使用 AI 的技能並不好,只會跟 ChatGPT 聊天而已。我的經驗是,他創作出來的內容,其實不容易符合
本文探討AI筆記工具的優缺點、選擇建議及未來趨勢,比較NotebookLM、OneNote+Copilot、Notion AI、Obsidian+GPT插件和Palantir Foundry等工具,並強調安全注意事項及個人需求評估的重要性。
你有沒有發現,人生中總有幾種人讓你忍不住多看幾眼? 不是因為他們長得特別帥、家裡特別有錢,而是他們總能在混亂中找到方向、別人都沒看到的地方發現機會 甚至,你還來不及反應,他們已經在前面三步了。 這種人,你可能以為是「天才」。 但其實,他們只是「開啟了某幾種特別的能力」。 而這些能力,
從根本上說,我們之所以是我們,是因為在某個無法控制的瞬間,另一個真實存在的人回應、拒絕或重新定義了我們。AI 只會永恆地迎合我們的期望,卻無法真正突破我們的自我界限。 如果我們完全隔絕於傷害與干擾之外,我們是否同時也喪失了成為真正「人」的可能性?
我寫小說,也畫畫,剛好方格子正在進行討論 AI 的話題,就來聊一下我自己怎麼運用 AI 的吧。 首先,我並不喜歡直接用 AI 生成的東西取代人工創作,如果可以的話,我會儘可能自己手工創作,因為我使用 AI 的技能並不好,只會跟 ChatGPT 聊天而已。我的經驗是,他創作出來的內容,其實不容易符合
本文探討AI筆記工具的優缺點、選擇建議及未來趨勢,比較NotebookLM、OneNote+Copilot、Notion AI、Obsidian+GPT插件和Palantir Foundry等工具,並強調安全注意事項及個人需求評估的重要性。
你可能也想看
Google News 追蹤
Thumbnail
【vocus 精選投資理財/金融類沙龍,輸入 "moneyback" 年訂閱 9 折】 市場動盪時,加碼永遠值得的投資標的——「自己」 川普政府再度拋出關稅震撼彈,全球市場應聲重挫,從散戶到專業投資人,都急著找尋買進殺出的訊號,就是現在,輪到知識進場!把握時機讓自己升級,別放過反彈的機會!
Thumbnail
就能get 同款 韓系質感包👜 而且獨家下殺 299元up 讓它成為你的 必備單品吧! - momo優惠折扣碼 領取超簡單❤️ 點擊右下角 會員中心 - 折價券 輸入 FLOWERMOMO 點擊歸戶 就能領取 商店優惠券 啦! - https://momo.dm/RaFNzR
Thumbnail
momo店+ S999純銀四葉草項鍊,精緻細膩,代表愛情、希望、信念與幸運,是送給自己或別人的完美禮物。限時下殺299元起,超取免運!
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121,我們完成書籍:Transformers for Natural Language Proc
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 原始 Transformer 架構的 Transduction Process 使用編碼器堆疊、解碼器堆疊而用所有模型參數來表示參考序列,我們將該輸出序列稱為參考。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 37 到 AI說書 - 從0開始 - 70 ,我們完成書籍:Transformers for Natural Language Proc
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 41中,提及 Transformer 的 Encoder 架構如下圖所示: 此外我已經在AI說書 - 從0開始 - 42中,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 既然要談論 Transformer 的 Attention 機制,我們必須要談論以下主題: Transformer 架構 自注意力機制 編碼與解碼 Embedd
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從AI說書 - 從0開始 - 0到AI說書 - 從0開始 - 34,我們談了許多 Transformer 議題,以下來做條列性結論: Transformer 迫使人工
Thumbnail
【vocus 精選投資理財/金融類沙龍,輸入 "moneyback" 年訂閱 9 折】 市場動盪時,加碼永遠值得的投資標的——「自己」 川普政府再度拋出關稅震撼彈,全球市場應聲重挫,從散戶到專業投資人,都急著找尋買進殺出的訊號,就是現在,輪到知識進場!把握時機讓自己升級,別放過反彈的機會!
Thumbnail
就能get 同款 韓系質感包👜 而且獨家下殺 299元up 讓它成為你的 必備單品吧! - momo優惠折扣碼 領取超簡單❤️ 點擊右下角 會員中心 - 折價券 輸入 FLOWERMOMO 點擊歸戶 就能領取 商店優惠券 啦! - https://momo.dm/RaFNzR
Thumbnail
momo店+ S999純銀四葉草項鍊,精緻細膩,代表愛情、希望、信念與幸運,是送給自己或別人的完美禮物。限時下殺299元起,超取免運!
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121,我們完成書籍:Transformers for Natural Language Proc
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 原始 Transformer 架構的 Transduction Process 使用編碼器堆疊、解碼器堆疊而用所有模型參數來表示參考序列,我們將該輸出序列稱為參考。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 37 到 AI說書 - 從0開始 - 70 ,我們完成書籍:Transformers for Natural Language Proc
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 41中,提及 Transformer 的 Encoder 架構如下圖所示: 此外我已經在AI說書 - 從0開始 - 42中,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - 從0開始 - 41中,我們提及 Transformer 的 Encoder 架構如下圖所示,同時我們羅列幾個要點於圖示右邊: 原始 Transform
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 既然要談論 Transformer 的 Attention 機制,我們必須要談論以下主題: Transformer 架構 自注意力機制 編碼與解碼 Embedd
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從AI說書 - 從0開始 - 0到AI說書 - 從0開始 - 34,我們談了許多 Transformer 議題,以下來做條列性結論: Transformer 迫使人工