AI說書 - 從0開始 - 9

閱讀時間約 1 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n,且每個字用d維度的向量表示時有以下結論:

  • Attention Layer的複雜度是O(n^2 * d)
  • Recurrent Layer的複雜度是O(d^2 * n)

這些資料出自於ChatGPT的關鍵技術 - Transformer的原始Google論文:Attention is All You Need, Vaswani et al. (2017)


我們已經用CPU當作運算資源,得出Attention Layer比Recurrent Layer更有優勢,結論彙整於AI說書 - 從0開始 - 8


現在目標是想要用Python來做模擬,且使用GPU當作運算資源。


延續使用Meta釋出的模型,實作Chat GPT - Part 0的Google Colab設定,我們開始做環境設定:

raw-image


avatar-img
170會員
451內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Learn AI 不 BI 的其他內容
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 7,已經完成Colab Python環境配置。 針對Attention Layer的程式配置為: start_time =
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 6中說當Context長度是d,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 5中說當Context長度是d,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」,我們稱其為Attention Layer,再搭配我們在機器學習
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 2,ChatGPT的根基是一種名為Transformer的Foundation Model,而Transformer依據AI說書 - 從
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 2,ChatGPT的根基是一種名為Transformer的Foundation Model,我們從Transformer的時間複雜度開始
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 7,已經完成Colab Python環境配置。 針對Attention Layer的程式配置為: start_time =
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 6中說當Context長度是d,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 5中說當Context長度是d,且每個字用d維度的向量表示時有以下結論: Attention Layer的複雜度是O(n^2 *
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」,我們稱其為Attention Layer,再搭配我們在機器學習
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 2,ChatGPT的根基是一種名為Transformer的Foundation Model,而Transformer依據AI說書 - 從
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 2,ChatGPT的根基是一種名為Transformer的Foundation Model,我們從Transformer的時間複雜度開始
你可能也想看
Google News 追蹤
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
Thumbnail
繪製個人學習藍圖,戰勝拖延與分心,並運用直接學習法,讓你的學習更加目標導向。重複練習與自由回想則能幫助你鞏固知識,根據反饋調整學習方向,確保你在正確的道路上不斷進步。立即開始,讓學習變得更高效!
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,對一些看似基本,但是重要且會影響到之後實作的項目概念有點疑惑,覺得應該查清楚,所以搞懂後記錄下來,寫下這篇文章(應該說是筆記?)。 正文 下面這段程式碼: model = Sequential() model.add
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
我常學習得到上面的課程。 得到的每門課程, 一講原則上是10分鐘錄音的長度。 而這10分鐘錄音的逐字稿, 我會將其切割成6-8塊資訊塊, 每一個資訊塊大約是3-4個段落, 以完整討論一個觀點的長度為主。 我會根據每個資訊塊的內容, 打上關鍵字的標籤,
Thumbnail
AI 相關的內容每天都非常多,有聽過很多人因此感覺到焦慮,怕錯過了最新資訊就會趕不上,這篇內容會跟大家詳細的分享我自己的學習方法和經驗,並且會在最後分享一些我的學習資訊來源。
Thumbnail
本書介紹一些觀念和心理學原理,幫助我們在工作中做出更好的決定、利用情緒激發創意和提升心智表現…
Thumbnail
你應該聽過有人開頭就說:「我簡單說明一下。」結果說個不停,10 分鐘了還聽不到想表達什麼,我們會不耐煩是因為對簡單說一下,到底是多簡單?要講多久?每個人的認知完全不一樣。 如果說:「我用 2 分鐘簡單說明一下。」那麼你可以預期 2 分鐘就結束,對方沒做到還可以提醒他。 如何確保訊息的精確傳遞
生活實驗 六五四 原來只要打開以後,開始翻閱, 然後閱讀的行為就會自然開始, 如果停下來、有想了一下就非常的值得。 有些書的作者只是花了很多時間、 斷斷續續講了幾番很長的話, 也沒有期待誰能一次聽完, 這種對話量大抵連編輯也會覺得吃力。 想通了以後,文字終於在我
Thumbnail
http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
Thumbnail
繪製個人學習藍圖,戰勝拖延與分心,並運用直接學習法,讓你的學習更加目標導向。重複練習與自由回想則能幫助你鞏固知識,根據反饋調整學習方向,確保你在正確的道路上不斷進步。立即開始,讓學習變得更高效!
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,對一些看似基本,但是重要且會影響到之後實作的項目概念有點疑惑,覺得應該查清楚,所以搞懂後記錄下來,寫下這篇文章(應該說是筆記?)。 正文 下面這段程式碼: model = Sequential() model.add
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
我常學習得到上面的課程。 得到的每門課程, 一講原則上是10分鐘錄音的長度。 而這10分鐘錄音的逐字稿, 我會將其切割成6-8塊資訊塊, 每一個資訊塊大約是3-4個段落, 以完整討論一個觀點的長度為主。 我會根據每個資訊塊的內容, 打上關鍵字的標籤,
Thumbnail
AI 相關的內容每天都非常多,有聽過很多人因此感覺到焦慮,怕錯過了最新資訊就會趕不上,這篇內容會跟大家詳細的分享我自己的學習方法和經驗,並且會在最後分享一些我的學習資訊來源。
Thumbnail
本書介紹一些觀念和心理學原理,幫助我們在工作中做出更好的決定、利用情緒激發創意和提升心智表現…
Thumbnail
你應該聽過有人開頭就說:「我簡單說明一下。」結果說個不停,10 分鐘了還聽不到想表達什麼,我們會不耐煩是因為對簡單說一下,到底是多簡單?要講多久?每個人的認知完全不一樣。 如果說:「我用 2 分鐘簡單說明一下。」那麼你可以預期 2 分鐘就結束,對方沒做到還可以提醒他。 如何確保訊息的精確傳遞
生活實驗 六五四 原來只要打開以後,開始翻閱, 然後閱讀的行為就會自然開始, 如果停下來、有想了一下就非常的值得。 有些書的作者只是花了很多時間、 斷斷續續講了幾番很長的話, 也沒有期待誰能一次聽完, 這種對話量大抵連編輯也會覺得吃力。 想通了以後,文字終於在我
Thumbnail
http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888