AI說書 - 從0開始 - 10

LearnAI

發佈於三分鐘學AI

更新於 2024/06/10發佈於 2024/06/10閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n，且每個字用d維度的向量表示時有以下結論：

Attention Layer的複雜度是O(n^2 * d)
Recurrent Layer的複雜度是O(d^2 * n)

這些資料出自於ChatGPT的關鍵技術 - Transformer的原始Google論文：Attention is All You Need, Vaswani et al. (2017)

並且我們在AI說書 - 從0開始 - 9，已經完成Colab Python GPU環境配置。現在目標是想要用Python來做模擬，且使用GPU當作運算資源。

針對Attention Layer的程式配置為：

import torch
import time

n = 512
d = 512

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

input_seq = torch.rand(n, d, device = device)

start_time = time.time()
_ = torch.mm(input_seq, input_seq.t())
attention_time = time.time() - start_time
print(f"Self-attention computation time: {attention_time} seconds")

對此，執行結果為：

而針對Recurrent Layer的程式配置為：

start_time = time.time()
hidden_state = torch.zeros(d, device = device)
for i in range(n):
	for j in range(d):
		for k in range(d):
			hidden_state[j] += input_seq[i, j] * hidden_state[k]
			compute_time = time.time() - start_time
			if compute_time > attention_time * 10:
				break

recurrent_time = time.time() - start_time
print(f"Recurrent layer computation time: {recurrent_time} seconds")

對此，執行結果為：

Learn AI 不 BI三分鐘學AIAI從0開始-第一章

Learn AI 不 BI

188會員

496內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言0

查看全部

發表第一個留言支持創作者！

Learn AI 不 BI 的其他內容

AI說書 - 從0開始 - 9

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n，且每個字用d維度的向量表示時有以下結論： Attention Layer的複雜度是O(n^2 *

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 8

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 7，已經完成Colab Python環境配置。針對Attention Layer的程式配置為： start_time =

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 7

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 6中說當Context長度是d，且每個字用d維度的向量表示時有以下結論： Attention Layer的複雜度是O(n^2 *

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 6

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 5中說當Context長度是d，且每個字用d維度的向量表示時有以下結論： Attention Layer的複雜度是O(n^2 *

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 5

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」，我們稱其為Attention Layer，再搭配我們在機器學習

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 4

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 2，ChatGPT的根基是一種名為Transformer的Foundation Model，而Transformer依據AI說書 - 從

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 9

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 8

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 7

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 6

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 5

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 4

#AI #ai #PromptEngineering

你可能也想看

Google News 追蹤

阿翰的沙龍

2025/02/06

從創作到理財：如何在生活中找到你的美感心法？

在創作的路上真的很多人問我說到底要怎麼做出符合自己期待但又可以表現得很有美感的作品？🥹 這個問題真的應該是每個創作者都一直在學習的課題吧！

#創作 #理財 #國泰世華

♡ 後沙發的會客廳 ♡

2025/01/11

《表達與社交學》95 抱怨者嚇走強者，提問者吸引強者，所以貴人運天差地遠

提問的內容越是清晰，強者、聰明人越能在短時間內做判斷、給出精準的建議，他們會對你產生「好印象」，認定你是「積極」的人，有機會、好人脈會不自覺地想引薦給你

#後沙發 #貴人 #人脈

曼徹的矽谷旅記 Mencher’s Travelogue

2024/08/05

ML Infra 一大戰場 - 分散式訓練

本系列將討論 LLM 時代中，分散 ML workload 的各種方法。作為系列的第一篇，我們將提及 High-level 的概論，譬如分散式訓練的各種切法、Model Parallelism 的相依問題，以及改善 Network Topology 等課題。

#討論 #ML #LLM

Alan Tseng的沙龍

2024/07/19

超簡單! 一文理解如何使用私有大型語言模型LLM - Ollama＋Open WebUI篇

本文會教你如何以最簡單方式使用Ollama＋Open WebUI

#ollama #llm #大型語言模型

柴郡貓姍蒂的沙龍

2024/06/29

筆記-深度學習參數理解："input_shape"

前言在閱讀《強化式學習：打造最強 AlphaZero 通用演算法》時，對一些看似基本，但是重要且會影響到之後實作的項目概念有點疑惑，覺得應該查清楚，所以搞懂後記錄下來，寫下這篇文章(應該說是筆記？)。正文下面這段程式碼： model = Sequential() model.add

https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了；現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量影片中GPT3共儲存50257個英文單字, 每

#AI #LLM #GPT

無限智慧學院的沙龍

2024/06/13

迎戰未來，AI 量子計算基礎篇 (1)，Single Systems

預計量子AI計算會在2032年左右來到，在這之前，我們還有充足的時間可以逐步去學習量子計算與演算法，讓我們按部就班，持續前進，做輕鬆無負擔的超前學習 !

#QuantumComputing #Qiskit #braket

王啟樺的沙龍

2024/05/15

055｜如何讓每天的學習都有目的和成果？

我常學習得到上面的課程。得到的每門課程，一講原則上是10分鐘錄音的長度。而這10分鐘錄音的逐字稿，我會將其切割成6-8塊資訊塊，每一個資訊塊大約是3-4個段落，以完整討論一個觀點的長度為主。我會根據每個資訊塊的內容，打上關鍵字的標籤，

創作邦｜設計X工具X品牌的沙龍

2024/05/01

我如何從零開始接觸與學習 AI，超詳細學習方法與心得

AI 相關的內容每天都非常多，有聽過很多人因此感覺到焦慮，怕錯過了最新資訊就會趕不上，這篇內容會跟大家詳細的分享我自己的學習方法和經驗，並且會在最後分享一些我的學習資訊來源。

本書作者劉潤深入探討底層邏輯，如何透過洞察本質和時間管理，提升生活品質和工作效率。內容包含對問題的深度思考和時間管理觀念，讀者能從書中獲得新穎的啟發，改變心態和方式。

#管理 #浴缸 #作者

Mr. Colin 的沙龍

2024/03/05

速解：每天最重要的兩小時（上）閱讀時間：3 分鐘

本書介紹一些觀念和心理學原理，幫助我們在工作中做出更好的決定、利用情緒激發創意和提升心智表現…

#每天最重要的2小時 #閱讀心得

波士の思考

2024/02/22

24｜用數字表達可以減少誤會，還可以順便精簡說詞

你應該聽過有人開頭就說：「我簡單說明一下。」結果說個不停，10 分鐘了還聽不到想表達什麼，我們會不耐煩是因為對簡單說一下，到底是多簡單？要講多久？每個人的認知完全不一樣。如果說：「我用 2 分鐘簡單說明一下。」那麼你可以預期 2 分鐘就結束，對方沒做到還可以提醒他。如何確保訊息的精確傳遞

#溝通技巧 #使用數字 #減少誤會

阿翰的沙龍

2025/02/06

從創作到理財：如何在生活中找到你的美感心法？

#創作 #理財 #國泰世華

♡ 後沙發的會客廳 ♡

2025/01/11

《表達與社交學》95 抱怨者嚇走強者，提問者吸引強者，所以貴人運天差地遠

#後沙發 #貴人 #人脈

曼徹的矽谷旅記 Mencher’s Travelogue

2024/08/05

ML Infra 一大戰場 - 分散式訓練

#討論 #ML #LLM

Alan Tseng的沙龍

2024/07/19

超簡單! 一文理解如何使用私有大型語言模型LLM - Ollama＋Open WebUI篇

本文會教你如何以最簡單方式使用Ollama＋Open WebUI

#ollama #llm #大型語言模型

柴郡貓姍蒂的沙龍

2024/06/29

筆記-深度學習參數理解："input_shape"

迎戰未來，AI 量子計算基礎篇 (1)，Single Systems

#QuantumComputing #Qiskit #braket

我如何從零開始接觸與學習 AI，超詳細學習方法與心得

#管理 #浴缸 #作者

速解：每天最重要的兩小時（上）閱讀時間：3 分鐘

本書介紹一些觀念和心理學原理，幫助我們在工作中做出更好的決定、利用情緒激發創意和提升心智表現…

#每天最重要的2小時 #閱讀心得

波士の思考

2024/02/22

24｜用數字表達可以減少誤會，還可以順便精簡說詞

#溝通技巧 #使用數字 #減少誤會