Andrej Karpathy 最新專案：100 美金打造自己的 ChatGPT — nanochat 解析

2025/10/17 更新2025/10/17 發佈閱讀 7 分鐘

我們知道如何「使用」AI，但對於如何「打造」一個 AI，從數據處理、模型訓練到最終部署的完整流程，始終隔著一層神秘的面紗。Andrej Karpathy 最新發布的開源專案 nanochat，正是為了解決這個問題而生。

nanochat 不只是一個精簡版的 ChatGPT，它更像是一張清晰的藍圖，用最少的程式碼與依賴，完整建構一個現代對話式 AI 的所有核心環節。更令人驚訝的是，您只需要大約 $100 美金的雲端運算費用與 4 小時的等待，就能從零開始，訓練出一個能在網頁上與您對話的專屬語言模型。

https://github.com/karpathy/nanochat

nanochat 懶人包

nanochat 是由 Andrej Karpathy 發布的一個全新開源專案，提供一個極簡、完整、可客製化的 ChatGPT-like 模型訓練流程。它讓開發者能在一台配備 8 個 H100 GPU 的雲端主機上，透過執行一個腳本 (speedrun.sh)，在短短 4 小時內，花費約 100 美金，就完成從無到有訓練出一個小型對話 AI 的所有步驟。

這個專案的核心理念是「極簡化」與「透明化」。整個專案程式碼僅約 8,000 行，刻意避免使用複雜的框架與抽象層，讓學習者能輕易理解從數據處理、分詞器訓練、模型預訓練、監督式微調 (SFT)、強化學習 (RL) 到最終部署成網頁聊天介面的完整過程。

主要亮點剖析

nanochat 的價值除了低成本，更在於其精巧的設計與完整的流程：

全端訓練流程：從零到專屬的 ChatGPT

傳統上，要理解一個 LLM 的誕生，需要拼湊來自不同框架、論文與程式庫的知識。nanochat 則將這個複雜的流程整合到一個腳本中，涵蓋了以下所有關鍵階段：

分詞器訓練 (Tokenizer Training)：專案內建了一個以 Rust 語言撰寫的高效能 BPE (Byte Pair Encoding) 分詞器訓練工具 rustbpe。相較於使用現成的分詞器，nanochat 讓您能從頭訓練一個最適合您數據集的分詞模型。
預訓練 (Pretraining)：這是最耗時的階段。模型會在大量的公開網路文本數據 (FineWeb-EDU) 上進行訓練，學習語言的規律、事實知識與基本推理能力。
中期訓練 (Midtraining)：在通用預訓練後，模型會在一系列高品質的混合數據集上進行微調，這些數據集包含對話、程式碼、多選題等，目的是讓模型開始適應特定的任務形式。
監督式微調 (Supervised Finetuning, SFT)：這個階段專注於對話能力的養成。模型會學習遵循用戶指令，並以「用戶-助理」的對話格式進行回應。
強化學習 (Reinforcement Learning, RL)：這是一個選修階段，專案以 GSM8K 數學問題為例，展示如何透過強化學習讓模型在特定任務上（如解數學題）的表現更上一層樓。
評估與報告 (Evaluation & Reporting)：訓練過程中，系統會自動在多個標準學術評測（如 MMLU、ARC、HumanEval）上評估模型表現，並生成一份詳細的報告卡。
部署與互動 (Inference & Serving)：訓練完成後，您可以透過指令啟動一個 FastAPI 網頁伺服器，直接在瀏覽器中與您親手訓練的模型進行對話。

極致簡潔與低成本：百元美金打造你的語言模型

nanochat 的第二大亮點在於其對「簡潔」與「低成本」的極致追求。

在設計上，nanochat 刻意避開了大型框架，整個專案的核心依賴只有 PyTorch、NumPy 等基礎函式庫。這使得程式碼非常容易閱讀與修改，開發者可以專注於演算法本身，而非繁瑣的框架設定。

在成本上，nanochat 提供了明確的「運算預算方案」：

100 美金方案：這是預設方案，在 8 個 H100 GPU 上運行約 4 小時。訓練出的模型能力雖然有限（Karpathy 形容像在跟幼稚園小朋友說話），但已經能生成通順的詩歌、故事，並回答簡單問題。其 CORE 評測指標甚至能超越 GPT-2。
300 美金方案：運行約 12 小時，模型會變得更加連貫，在 CORE 指標上超越 GPT-2。
1000 美金方案：運行約 41.6 小時，模型將具備解決簡單數學與程式問題的能力。

不只是一個玩具：可擴展的學習與研究平台

儘管 nanochat 以「小」為名，但它的目標遠不止於一個教學玩具。Karpathy 將其定位為一個「強大的基準平台」(strong baseline)，具備高度的可擴展性與研究潛力。

對於學習者：nanochat 是理解 LLM 運作原理的最佳教材。透過修改程式碼並觀察報告卡上的指標變化，學習者可以直觀地理解不同訓練階段、不同超參數對模型能力的具體影響。
對於研究者：nanochat 提供了一個乾淨、可控的實驗環境。研究人員可以在這個穩定的基礎上，快速驗證新的模型架構、優化演算法或訓練策略，而無需被龐大複雜的框架所束縛。
對於開源社群：如同 nanoGPT 成為許多小型語言模型專案的起點，nanochat 有潛力成為下一代開源對話模型的孵化器，激發更多客製化、專門化的模型誕生。

TN科技筆記的觀點

nanochat 重新點燃了 AI 開源社群的「第一原理思考」。近年來，LLM 的發展越來越趨向於「規模競賽」，模型越來越大、越來越昂貴，使得創新被少數幾家巨頭所壟斷。nanochat 反其道而行，它告訴我們，透過精巧的設計與對核心流程的深刻理解，我們依然可以在有限的資源下，打造出有價值的 AI。它鼓勵開發者去思考：如果我只有 100 美金，我能做出什麼樣的 AI？這種資源限制下的創造力，往往是催生颠覆式創新的溫床。

雖然 nanochat 沒有內建複雜的數據過濾機制、內容審核系統，或是在大規模部署時所需的高度容錯與監控架構。但是，對於預算有限的學習者而言，這份專案絕對是非常有幫助，並且附有完整原始碼的互動教科書，讓學習者對於 LLM 訓練的理解更加深刻。

支持TN科技筆記，與科技共同前行

我是TN科技筆記，如果喜歡這篇文章，歡迎留言、點選愛心、轉發給我支持鼓勵～～～也歡迎每個月請我喝杯咖啡，鼓勵我撰寫更多科技文章，一起跟著科技浪潮前進！！>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們，讓我更加有動力為各位帶來科技新知！

以下是我的 threads 也歡迎追蹤、回覆、轉發喔！

>>>>> TN科技筆記(TechNotes)

TN科技筆記(TechNotes)的沙龍科技領域筆記

留言

留言分享你的想法！

TN科技筆記(TechNotes)的沙龍

51會員

163內容數

大家好，我是TN，喜歡分享科技領域相關資訊，希望各位不吝支持與交流！

TN科技筆記(TechNotes)的沙龍的其他內容

2025/10/15

700萬參數模型 TRM 如何在頂級推理難題上，擊敗千億級對手？

僅有700萬參數的AI模型TRM，為何能在ARC-AGI等頂級推理難題上超越巨型模型。了解其反覆思考與簡化設計的秘密，以及它對AI擴展法則帶來的挑戰。

2025/10/15

700萬參數模型 TRM 如何在頂級推理難題上，擊敗千億級對手？

僅有700萬參數的AI模型TRM，為何能在ARC-AGI等頂級推理難題上超越巨型模型。了解其反覆思考與簡化設計的秘密，以及它對AI擴展法則帶來的挑戰。

2025/10/13

Google DeepMind CodeMender：AI 資安隊友誕生

深度解析 Google DeepMind 最新的 AI 代理 CodeMender。了解它如何利用 Gemini 模型自動偵測、修復甚至重寫程式碼以預防安全漏洞，以及這項技術將如何改變軟體開發與網路安全的未來。

2025/10/13

Google DeepMind CodeMender：AI 資安隊友誕生

2025/10/10

Google 接連推出 Computer Use model、Gemini Enterprise：打造 AI 企業新入口

深度解析 Google 最新的 AI 平台 Gemini Enterprise。它如何透過「電腦使用模型」讓 AI 代理能像人一樣操作軟體，全面自動化枯燥的辦公室工作流程，以及它將為企業帶來哪些機會與挑戰。

2025/10/10

Google 接連推出 Computer Use model、Gemini Enterprise：打造 AI 企業新入口

#AI 的其他內容

《鴻海已經達標5月預期的估值，而2026年還有多少本益比想像價值?》

普普文創

【踏青漫步】剪刀石山 258公尺

林位青的沙龍

Google Stitch 生成 UI 介面設計，加速產品原型開發與協作

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

#懶人料理#食譜#健康甜點

2025/10/15

Jackie Chien的沙龍

原來，ChatGPT可以幫你寫公文！

我是一位提示工程師生成式AI的課程，我大概已經上過1,000人次以上，最近更花費重金，在台大霖澤館舉辦一場百人AIBOT設計課程，並在將近10位的助教協助下，完成課程的設定目標。在生成式AI的領域中，變化實在是非常地迅速，今天表現不佳的ChatGPT，明天可能問題就可以解決。過去還有想辦

2024/07/26

2024/07/26

因為網路上充斥著是是而非的資訊，公說公有理婆說婆有理，我發現我的價值觀開始有點混淆，心中有許多問題不知道真正的答案是甚麼？突然想到最近的AI新科技-ChatGPT 或許可以解答我內心的困惑。所以我試著與ChatGPT進行對話，沒想到ChatGPT 的回覆完全可以解答我心中的疑惑。

2024/07/16

2024/07/16

AI說書 - Prompt Engineering - 11

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。人工智慧的未來是以使用者為中心，個人在與人工智慧系統的互動中扮演著越來越重要的角色。預計這種趨勢將催生被

#AI#ai#PromptEngineering

2024/06/18

Learn AI 不 BI

AI說書 - Prompt Engineering - 11

#AI#ai#PromptEngineering

2024/06/18

ChatGPT | 加拿大工作 | 軟體開發

ChatGPT Plus：一個月20美金值不值得？

ChatGPT 4o 是一個強大的AI服務，提供了免費版和付費版的服務。付費用戶除了享有流量優先權外，還擁有更精確的回覆和更多功能，像是理解圖片、個性化設定、記憶功能等。本文將探討付費用戶的優勢，並提供了適合啟用付費版的人群。

#ChatGPT#付費#個性

2024/05/21

ChatGPT | 加拿大工作 | 軟體開發

ChatGPT Plus：一個月20美金值不值得？

#ChatGPT#付費#個性

2024/05/21

程式輕鬆玩

ChatGPT：人工智慧的對話夥伴

ChatGPT（全名：聊天生成預訓練轉換器）是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出，使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型，並以強化學習進行訓練。

2024/05/15

2024/05/15

問問ChatGPT：學習新技術的10個步驟

本文談論了使用ChatGPT的心得和學習新技術的10個步驟，透過這些方法和步驟可以幫助學習者快速有效地掌握新技術。

#學習#ChatGPT#放棄

2024/04/28

塔羅Lab.研究生在幹嘛?

問問ChatGPT：學習新技術的10個步驟

本文談論了使用ChatGPT的心得和學習新技術的10個步驟，透過這些方法和步驟可以幫助學習者快速有效地掌握新技術。

#學習#ChatGPT#放棄

2024/04/28

乙二浮想事務所

我如何與AI合作寫小說

前年2022年11月OpenAI公司發表了ChatGPT，並開放ChatGPT-3.5在網路上供人免費下載試用，瞬間引爆了人工智慧的話題，能夠自我學習的ChatGPT以每天可見的變化在進步，讓人見識到人工智能的學習力，隨後OpenAI發表的GPT-4，讓人見識到GPT這個人工智慧系統有著令人驚訝的智

2024/04/09

2024/04/09

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News