AI說書 - 從0開始 - 15

閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n,且每個字用d維度的向量表示時有以下結論:

  • Attention Layer的複雜度是O(n^2 * d)
  • Recurrent Layer的複雜度是O(d^2 * n)

這些資料出自於ChatGPT的關鍵技術 - Transformer的原始Google論文:Attention is All You Need, Vaswani et al. (2017)


我們已經用以下各種運算資源,得出Attention Layer比Recurrent Layer運算還快的結論:

  1. CPU執行Attention Layer: AI說書 - 從0開始 - 8
  2. CPU執行Recurrent Layer: AI說書 - 從0開始 - 8
  3. GPU執行Attention Layer: AI說書 - 從0開始 - 10
  4. GPU執行Recurrent Layer: AI說書 - 從0開始 - 10
  5. TPU執行Attention Layer: AI說書 - 從0開始 - 12
  6. TPU執行Recurrent Layer: AI說書 - 從0開始 - 13


綜上,有以下結論:

  • 透過避免Recurrence,Attention Layer比Recurrent Layer運算還快
  • Attention Layer的「One-to-One Word Analysis」使其能「偵測長句子的相依性」
  • Attention Layer的「Matrix Multiplication」充分利用了GPU與TPU的運算優勢
  • Attention Layer的「Matrix Multiplication」釋放了GPU與TPU能力,使其能執行更多運算、學習更多資訊


那明明自然語言處理之前是RNN的天下,怎麼後來變成是Transformer的天下了呢?關鍵分析如下:

  • RNN的「Recurrent Functionality」使其面臨句子很長時會忘記前面的字
  • Transformer的核心關鍵是「Mixing Tokens」,完整原文詮釋是「Transformers do not analyze tokens in sequences but relate every token to the other tokens in a sequence」,示意圖如下:
raw-image

圖片出自書籍:Transformers for Natural Language Processing and Computer Vision, Denis Rothman, 2024.

avatar-img
170會員
450內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Learn AI 不 BI 的其他內容
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 ChatGPT縱然成功,但是仍有一些任務處理得不好,例如: 需要邏輯推論的任務 多步驟的任務
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 生成式AI (Generative AI)是一種人工智慧,它調度機器學習方式來產生新的或者是原創的文字、
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 ChatGPT縱然成功,但是仍有一些任務處理得不好,例如: 需要邏輯推論的任務 多步驟的任務
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 生成式AI (Generative AI)是一種人工智慧,它調度機器學習方式來產生新的或者是原創的文字、
你可能也想看
Google News 追蹤
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
Thumbnail
繪製個人學習藍圖,戰勝拖延與分心,並運用直接學習法,讓你的學習更加目標導向。重複練習與自由回想則能幫助你鞏固知識,根據反饋調整學習方向,確保你在正確的道路上不斷進步。立即開始,讓學習變得更高效!
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,對一些看似基本,但是重要且會影響到之後實作的項目概念有點疑惑,覺得應該查清楚,所以搞懂後記錄下來,寫下這篇文章(應該說是筆記?)。 正文 下面這段程式碼: model = Sequential() model.add
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
預計量子AI計算會在2032年左右來到,在這之前,我們還有充足的時間可以逐步去學習量子計算與演算法,讓我們按部就班,持續前進,做輕鬆無負擔的超前學習 !
我常學習得到上面的課程。 得到的每門課程, 一講原則上是10分鐘錄音的長度。 而這10分鐘錄音的逐字稿, 我會將其切割成6-8塊資訊塊, 每一個資訊塊大約是3-4個段落, 以完整討論一個觀點的長度為主。 我會根據每個資訊塊的內容, 打上關鍵字的標籤,
Thumbnail
AI 相關的內容每天都非常多,有聽過很多人因此感覺到焦慮,怕錯過了最新資訊就會趕不上,這篇內容會跟大家詳細的分享我自己的學習方法和經驗,並且會在最後分享一些我的學習資訊來源。
Thumbnail
本書作者劉潤深入探討底層邏輯,如何透過洞察本質和時間管理,提升生活品質和工作效率。內容包含對問題的深度思考和時間管理觀念,讀者能從書中獲得新穎的啟發,改變心態和方式。
Thumbnail
本書介紹一些觀念和心理學原理,幫助我們在工作中做出更好的決定、利用情緒激發創意和提升心智表現…
Thumbnail
你應該聽過有人開頭就說:「我簡單說明一下。」結果說個不停,10 分鐘了還聽不到想表達什麼,我們會不耐煩是因為對簡單說一下,到底是多簡單?要講多久?每個人的認知完全不一樣。 如果說:「我用 2 分鐘簡單說明一下。」那麼你可以預期 2 分鐘就結束,對方沒做到還可以提醒他。 如何確保訊息的精確傳遞
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
Thumbnail
繪製個人學習藍圖,戰勝拖延與分心,並運用直接學習法,讓你的學習更加目標導向。重複練習與自由回想則能幫助你鞏固知識,根據反饋調整學習方向,確保你在正確的道路上不斷進步。立即開始,讓學習變得更高效!
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,對一些看似基本,但是重要且會影響到之後實作的項目概念有點疑惑,覺得應該查清楚,所以搞懂後記錄下來,寫下這篇文章(應該說是筆記?)。 正文 下面這段程式碼: model = Sequential() model.add
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
預計量子AI計算會在2032年左右來到,在這之前,我們還有充足的時間可以逐步去學習量子計算與演算法,讓我們按部就班,持續前進,做輕鬆無負擔的超前學習 !
我常學習得到上面的課程。 得到的每門課程, 一講原則上是10分鐘錄音的長度。 而這10分鐘錄音的逐字稿, 我會將其切割成6-8塊資訊塊, 每一個資訊塊大約是3-4個段落, 以完整討論一個觀點的長度為主。 我會根據每個資訊塊的內容, 打上關鍵字的標籤,
Thumbnail
AI 相關的內容每天都非常多,有聽過很多人因此感覺到焦慮,怕錯過了最新資訊就會趕不上,這篇內容會跟大家詳細的分享我自己的學習方法和經驗,並且會在最後分享一些我的學習資訊來源。
Thumbnail
本書作者劉潤深入探討底層邏輯,如何透過洞察本質和時間管理,提升生活品質和工作效率。內容包含對問題的深度思考和時間管理觀念,讀者能從書中獲得新穎的啟發,改變心態和方式。
Thumbnail
本書介紹一些觀念和心理學原理,幫助我們在工作中做出更好的決定、利用情緒激發創意和提升心智表現…
Thumbnail
你應該聽過有人開頭就說:「我簡單說明一下。」結果說個不停,10 分鐘了還聽不到想表達什麼,我們會不耐煩是因為對簡單說一下,到底是多簡單?要講多久?每個人的認知完全不一樣。 如果說:「我用 2 分鐘簡單說明一下。」那麼你可以預期 2 分鐘就結束,對方沒做到還可以提醒他。 如何確保訊息的精確傳遞