Andrej Karpathy 的大型語言模型實用指南(上)

更新於 發佈於 閱讀時間約 5 分鐘

Andrej Karpathy是AI領域的知名專家,曾在特斯拉和OpenAI工作,專注於深度學習和電腦視覺。影片中示範了大型語言模型(LLM)的實用應用,從基本互動到進階功能,如搜尋工具、檔案處理、自訂GPT、ChatGPT運作原理、模型選擇、工具使用(如搜尋和深度研究)、程式碼撰寫、音視頻處理、圖像生成等。影片內容非常豐富,一樣建議有興趣的讀者有空時務必觀看完整影片!

raw-image

How I use LLMs


大型語言模型(LLM)的基本概念

文字互動的本質

大型語言模型的核心功能是文字輸入與文字輸出。使用者輸入文字提示 (prompt),模型則以文字回應。這種互動模式看似簡單,但底層運作卻相當複雜。

Tokenization (分詞)

大型語言模型首先將輸入的文字分解成稱為token的單位。這些token是模型理解和處理文字的基本單位。例如,句子 "How I use LLMs" 會被分解成 "how"、" I"、" use"、" L"、" LM"、"s" 等 token。每個token都對應到模型詞彙表中的一個ID。

Context Window (上下文窗口)

大型語言模型的一個重要概念是context window(上下文窗口)。Context window可以被視為模型的工作記憶體,它儲存了token序列。模型會根據context window 內的 token來預測下一個token。Context window大小有限制,因此過長的對話可能會導致模型遺忘先前的資訊。

大型語言模型的訓練過程

大型語言模型的訓練分為兩個主要階段:

  • Pre-training (預訓練):模型讀取大量的網際網路文本,並學習預測序列中的下一個 token。這個階段讓模型獲得了廣泛的世界知識。
  • Post-training (後訓練):模型使用人類創建的對話資料集進行訓練,使其能夠以更自然、更像助理的方式回應使用者的提問。

大型語言模型的本質

大型語言模型本質上是一個大型的「壓縮檔」,其中包含了數十億甚至數兆個參數。這些參數是在預訓練階段從網際網路文本中學習而來的。當使用者輸入提示時,模型會根據這些參數來預測下一個最可能的 token。


大型語言模型的應用

知識型查詢

大型語言模型擅長回答 知識型查詢,也就是那些基於模型已儲存的知識的問題。例如,詢問「一杯美式咖啡有多少咖啡因?」。由於這類資訊在網際網路上非常普遍,模型通常能夠提供合理的答案。

程式碼偵錯

大型語言模型也能夠協助程式碼偵錯。使用者可以將程式碼貼到大型語言模型中,並詢問錯誤的原因。更進階的模型甚至能夠找出程式碼中的錯誤,並提供修正建議。

旅行建議

大型語言模型也可以提供 旅行建議。使用者可以詢問大型語言模型推薦的旅遊城市,並獲得相關的資訊。

工具使用:網路搜尋

大型語言模型可以 使用工具 來擴展其能力。其中一個最有用的工具是網路搜尋。透過網路搜尋,大型語言模型可以訪問最新的資訊,並回答那些需要即時知識的問題。例如「《白蓮花大飯店》第三季何時播出?」由於這類資訊是最近才公布的,模型需要透過網路搜尋才能找到答案。

工具使用:Deep Research (深度研究)

Deep Research是一種結合了網路搜尋和深度思考的功能。當使用者提出複雜的問題時,模型會花費大量的時間進行網路搜尋、閱讀文獻,並產生一份詳細的研究報告。

檔案上傳

大型語言模型允許使用者上傳檔案,例如PDF文件,讓使用者可以與模型共同閱讀文件,並詢問相關的問題。例如,上傳一篇關於基因組序列分析的論文,並請模型提供摘要。

工具使用:Python Interpreter

大型語言模型可以使用Python 直譯器來執行程式碼。這使得模型能夠執行複雜的計算、產生圖表,並進行資料分析。例如,詢問「30 * 9 等於多少?」。模型可以直接計算出答案。但如果是更複雜的計算,模型會使用Python 直譯器來執行。

進階資料分析

ChatGPT 的進階資料分析功能,可以讓大型語言模型扮演初級資料分析師的角色。使用者可以上傳資料集,並要求模型進行分析、繪製圖表,並找出趨勢。

程式碼生成

大型語言模型擅長生成程式碼。例如,可以要求模型生成一個簡單的網頁應用程式。

多模態:圖片輸入

大型語言模型能夠理解圖片。使用者可以上傳圖片,並詢問相關的問題。例如,上傳一張營養標籤的圖片,並詢問成分的相關資訊。

多模態:圖片生成

大型語言模型也能夠生成圖片。使用者可以輸入文字提示,模型則會根據提示生成圖片。

多模態:影片理解

大型語言模型也能夠理解影片。使用者可以使用手機 App,將鏡頭對準物體,並詢問相關的問題。


使用大型語言模型的注意事項

模型版本與價格

不同的大型語言模型有不同的模型版本和價格。較大的模型通常具有更強大的能力,但也更昂貴。使用者應根據自身的需求和預算,選擇合適的模型。

工具的可用性

不同的大型語言模型可能具有不同的工具。例如,有些大型語言模型具有網路搜尋功能,有些則沒有。使用者應確認大型語言模型具有所需的工具,才能完成特定的任務。

幻覺 (Hallucination)

大型語言模型有時會產生幻覺,也就是產生不真實或不正確的資訊。使用者應仔細檢查 回應,並驗證其正確性。


我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~

也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!

>>>請我喝一杯咖啡

留言
avatar-img
留言分享你的想法!
TN科技筆記(TechNotes)-avatar-img
發文者
2025/03/03
Andrej Karpathy 的大型語言模型實用指南(下)提及了這篇文章,趕快過去看看吧!
avatar-img
TN科技筆記(TechNotes)的沙龍
29會員
115內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/04/27
隨著大型語言模型(LLM)在推理(Reasoning)任務的表現受到廣泛關注。為了提升模型在推理階段的表現,研究人員提出了「測試時間計算(Test-time Computing)」與「測試時間擴展(Test-time Scaling)」兩個重要概念。本文將說明這兩個概念的定義與區別。
Thumbnail
2025/04/27
隨著大型語言模型(LLM)在推理(Reasoning)任務的表現受到廣泛關注。為了提升模型在推理階段的表現,研究人員提出了「測試時間計算(Test-time Computing)」與「測試時間擴展(Test-time Scaling)」兩個重要概念。本文將說明這兩個概念的定義與區別。
Thumbnail
2025/04/21
隨著大型語言模型的快速發展,Prompt Engineering 已成為提升模型表現的核心技術。OpenAI 日前推出了 GPT-4.1 Prompting Guide,為開發者提供全面的提示詞改善策略,幫助充分利用 GPT-4.1 在編碼、指令遵循和長上下文處理上的進步。
Thumbnail
2025/04/21
隨著大型語言模型的快速發展,Prompt Engineering 已成為提升模型表現的核心技術。OpenAI 日前推出了 GPT-4.1 Prompting Guide,為開發者提供全面的提示詞改善策略,幫助充分利用 GPT-4.1 在編碼、指令遵循和長上下文處理上的進步。
Thumbnail
2025/04/19
Quantization將高精度數值(如FP32)轉換為低精度格式(如FP16、BF16、int8、int4),實現模型壓縮和推論加速。不同數據格式在動態範圍、精度和硬體支援上各有優劣,需根據應用場景選擇。GGUF作為量化模型的標準化檔案格式,確保模型在llama.cpp等推論框架中的高效運行。
Thumbnail
2025/04/19
Quantization將高精度數值(如FP32)轉換為低精度格式(如FP16、BF16、int8、int4),實現模型壓縮和推論加速。不同數據格式在動態範圍、精度和硬體支援上各有優劣,需根據應用場景選擇。GGUF作為量化模型的標準化檔案格式,確保模型在llama.cpp等推論框架中的高效運行。
Thumbnail
看更多
你可能也想看
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
Andrej Karpathy是AI領域的知名專家,曾在特斯拉和OpenAI工作,專注於深度學習和電腦視覺。影片中示範了大型語言模型(LLM)的實用應用,從基本互動到進階功能,如搜尋工具、檔案處理、自訂GPT、模型選擇、工具使用(如搜尋和深度研究)、程式碼撰寫、音視頻處理、圖像生成等。
Thumbnail
Andrej Karpathy是AI領域的知名專家,曾在特斯拉和OpenAI工作,專注於深度學習和電腦視覺。影片中示範了大型語言模型(LLM)的實用應用,從基本互動到進階功能,如搜尋工具、檔案處理、自訂GPT、模型選擇、工具使用(如搜尋和深度研究)、程式碼撰寫、音視頻處理、圖像生成等。
Thumbnail
Andrej Karpathy是AI領域的知名專家,曾在特斯拉和OpenAI工作,專注於深度學習和電腦視覺。影片中示範了大型語言模型(LLM)的實用應用,從基本互動到進階功能,如搜尋工具、檔案處理、自訂GPT、模型選擇、工具使用(如搜尋和深度研究)、程式碼撰寫、音視頻處理、圖像生成等。
Thumbnail
Andrej Karpathy是AI領域的知名專家,曾在特斯拉和OpenAI工作,專注於深度學習和電腦視覺。影片中示範了大型語言模型(LLM)的實用應用,從基本互動到進階功能,如搜尋工具、檔案處理、自訂GPT、模型選擇、工具使用(如搜尋和深度研究)、程式碼撰寫、音視頻處理、圖像生成等。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Vaswani 等人 2017 年解決了設計 Transformer 時最困難的 NLP 問題之一,對於我們人機智慧設計師來說,機器翻譯的人類基準似乎遙不可及,然而,這
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Vaswani 等人 2017 年解決了設計 Transformer 時最困難的 NLP 問題之一,對於我們人機智慧設計師來說,機器翻譯的人類基準似乎遙不可及,然而,這
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News