Andrej Karpathy 的大型語言模型實用指南(上)

更新於 發佈於 閱讀時間約 5 分鐘

Andrej Karpathy是AI領域的知名專家,曾在特斯拉和OpenAI工作,專注於深度學習和電腦視覺。影片中示範了大型語言模型(LLM)的實用應用,從基本互動到進階功能,如搜尋工具、檔案處理、自訂GPT、ChatGPT運作原理、模型選擇、工具使用(如搜尋和深度研究)、程式碼撰寫、音視頻處理、圖像生成等。影片內容非常豐富,一樣建議有興趣的讀者有空時務必觀看完整影片!

raw-image

How I use LLMs


大型語言模型(LLM)的基本概念

文字互動的本質

大型語言模型的核心功能是文字輸入與文字輸出。使用者輸入文字提示 (prompt),模型則以文字回應。這種互動模式看似簡單,但底層運作卻相當複雜。

Tokenization (分詞)

大型語言模型首先將輸入的文字分解成稱為token的單位。這些token是模型理解和處理文字的基本單位。例如,句子 "How I use LLMs" 會被分解成 "how"、" I"、" use"、" L"、" LM"、"s" 等 token。每個token都對應到模型詞彙表中的一個ID。

Context Window (上下文窗口)

大型語言模型的一個重要概念是context window(上下文窗口)。Context window可以被視為模型的工作記憶體,它儲存了token序列。模型會根據context window 內的 token來預測下一個token。Context window大小有限制,因此過長的對話可能會導致模型遺忘先前的資訊。

大型語言模型的訓練過程

大型語言模型的訓練分為兩個主要階段:

  • Pre-training (預訓練):模型讀取大量的網際網路文本,並學習預測序列中的下一個 token。這個階段讓模型獲得了廣泛的世界知識。
  • Post-training (後訓練):模型使用人類創建的對話資料集進行訓練,使其能夠以更自然、更像助理的方式回應使用者的提問。

大型語言模型的本質

大型語言模型本質上是一個大型的「壓縮檔」,其中包含了數十億甚至數兆個參數。這些參數是在預訓練階段從網際網路文本中學習而來的。當使用者輸入提示時,模型會根據這些參數來預測下一個最可能的 token。


大型語言模型的應用

知識型查詢

大型語言模型擅長回答 知識型查詢,也就是那些基於模型已儲存的知識的問題。例如,詢問「一杯美式咖啡有多少咖啡因?」。由於這類資訊在網際網路上非常普遍,模型通常能夠提供合理的答案。

程式碼偵錯

大型語言模型也能夠協助程式碼偵錯。使用者可以將程式碼貼到大型語言模型中,並詢問錯誤的原因。更進階的模型甚至能夠找出程式碼中的錯誤,並提供修正建議。

旅行建議

大型語言模型也可以提供 旅行建議。使用者可以詢問大型語言模型推薦的旅遊城市,並獲得相關的資訊。

工具使用:網路搜尋

大型語言模型可以 使用工具 來擴展其能力。其中一個最有用的工具是網路搜尋。透過網路搜尋,大型語言模型可以訪問最新的資訊,並回答那些需要即時知識的問題。例如「《白蓮花大飯店》第三季何時播出?」由於這類資訊是最近才公布的,模型需要透過網路搜尋才能找到答案。

工具使用:Deep Research (深度研究)

Deep Research是一種結合了網路搜尋和深度思考的功能。當使用者提出複雜的問題時,模型會花費大量的時間進行網路搜尋、閱讀文獻,並產生一份詳細的研究報告。

檔案上傳

大型語言模型允許使用者上傳檔案,例如PDF文件,讓使用者可以與模型共同閱讀文件,並詢問相關的問題。例如,上傳一篇關於基因組序列分析的論文,並請模型提供摘要。

工具使用:Python Interpreter

大型語言模型可以使用Python 直譯器來執行程式碼。這使得模型能夠執行複雜的計算、產生圖表,並進行資料分析。例如,詢問「30 * 9 等於多少?」。模型可以直接計算出答案。但如果是更複雜的計算,模型會使用Python 直譯器來執行。

進階資料分析

ChatGPT 的進階資料分析功能,可以讓大型語言模型扮演初級資料分析師的角色。使用者可以上傳資料集,並要求模型進行分析、繪製圖表,並找出趨勢。

程式碼生成

大型語言模型擅長生成程式碼。例如,可以要求模型生成一個簡單的網頁應用程式。

多模態:圖片輸入

大型語言模型能夠理解圖片。使用者可以上傳圖片,並詢問相關的問題。例如,上傳一張營養標籤的圖片,並詢問成分的相關資訊。

多模態:圖片生成

大型語言模型也能夠生成圖片。使用者可以輸入文字提示,模型則會根據提示生成圖片。

多模態:影片理解

大型語言模型也能夠理解影片。使用者可以使用手機 App,將鏡頭對準物體,並詢問相關的問題。


使用大型語言模型的注意事項

模型版本與價格

不同的大型語言模型有不同的模型版本和價格。較大的模型通常具有更強大的能力,但也更昂貴。使用者應根據自身的需求和預算,選擇合適的模型。

工具的可用性

不同的大型語言模型可能具有不同的工具。例如,有些大型語言模型具有網路搜尋功能,有些則沒有。使用者應確認大型語言模型具有所需的工具,才能完成特定的任務。

幻覺 (Hallucination)

大型語言模型有時會產生幻覺,也就是產生不真實或不正確的資訊。使用者應仔細檢查 回應,並驗證其正確性。


我是TN科技筆記,如果喜歡這篇文章,歡迎留言或轉發給朋友給我支持鼓勵!!

大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
留言1
avatar-img
留言分享你的想法!

































































學習AI一開始想必會接觸到Python,而接觸到Python時,有些人可能會先碰上Pip、Pip3、Conda和Anaconda等套件管理相關名詞的小困擾(像我),這次打算把這四者的關係弄清楚一些,希望也能幫助到讀者!
學習AI一開始想必會接觸到Python,而接觸到Python時,有些人可能會先碰上Pip、Pip3、Conda和Anaconda等套件管理相關名詞的小困擾(像我),這次打算把這四者的關係弄清楚一些,希望也能幫助到讀者!
有關資料隱私與安全的重點: 資料隱私風險對企業的影響、企業應對資料隱私風險的策略、資料安全議題、AI 導入時的資安注意事項
學習AI一開始想必會接觸到Python,而接觸到Python時,有些人可能會先碰上Pip、Pip3、Conda和Anaconda等套件管理相關名詞的小困擾(像我),這次打算把這四者的關係弄清楚一些,希望也能幫助到讀者!
學習AI一開始想必會接觸到Python,而接觸到Python時,有些人可能會先碰上Pip、Pip3、Conda和Anaconda等套件管理相關名詞的小困擾(像我),這次打算把這四者的關係弄清楚一些,希望也能幫助到讀者!
有關資料隱私與安全的重點: 資料隱私風險對企業的影響、企業應對資料隱私風險的策略、資料安全議題、AI 導入時的資安注意事項
你可能也想看
Google News 追蹤
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121,我們完成書籍:Transformers for Natural Language Proc
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Vaswani 等人 2017 年解決了設計 Transformer 時最困難的 NLP 問題之一,對於我們人機智慧設計師來說,機器翻譯的人類基準似乎遙不可及,然而,這
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 書籍:Transformers for Natural Language Processing and Computer Vision, Denis Rothman,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121,我們完成書籍:Transformers for Natural Language Proc
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Vaswani 等人 2017 年解決了設計 Transformer 時最困難的 NLP 問題之一,對於我們人機智慧設計師來說,機器翻譯的人類基準似乎遙不可及,然而,這
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 書籍:Transformers for Natural Language Processing and Computer Vision, Denis Rothman,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。