【超白話】讓Nvidia一天蒸發6000億美元的Deepseek：到底為何成本這麼低?

2025/03/02 更新2025/02/24 發佈閱讀 7 分鐘

2025農曆新年假期期間，新的大語言模型Deepseek的出現導致Nvidia一天蒸發6000億美元市值，股價重挫17% ( Investopedia )，Deepseek這項技術對Nvidia的股價產生如此劇烈的衝擊，正是因為它顛覆了傳統大語言模型「高效能＝高資源」的印象。本文將用最簡單的語言，帶你了解Deepseek如何在保有高效能的同時，大幅降低運算成本。

高效能≠高資源投入

傳統上，大語言模型的訓練常常需要龐大的資源和計算力。例如，OpenAI最新的o3模型在低計算模式下，每個消耗3,300萬Token的任務就要花費17至20美金；但如果採用高計算模式，成本甚至會放大172倍——換算下來，每解一道題目竟可能花費十萬台幣！這樣的成本對於大規模應用來說，無疑是一道巨大的門檻。

Deepseek的出現正是要打破這種傳統觀念。它憑藉著前人的經驗累積，採用創新技術與策略，在固定效能下讓系統做更多事情，換句話說，就是「做一樣的事，但用更少的效能」。

降低模型訓練成本的三大策略

1. 學習策略

🎯資料壓縮 Data Compression : 在不損失關鍵訊息的情況下，縮減訓練所需的資料量，使模型能更快學習。

🎯培養語感 Rotary Positional Embedding : 幫助模型理解每個詞在句子中的位置，有效提升模型對語言結構的把握。
【舉例】：想像你在看一部電影，電影中的每個場景都有其特定的時間順序

- - 就像你知道「早上起床→刷牙→吃早餐」這個順序是有意義的，反過來「吃早餐→刷牙→起床」則不合理
  - 或是在閱讀一個句子時，「我喜歡吃蘋果」和「蘋果吃喜歡我」的詞語位置不同，意思就完全不同

Rotary Positional Embedding就像是在AI模型中加入了這種「位置感知能力」，讓它能夠理解並正確處理語言中的順序關係，就像我們人類自然而然能理解語言中的先後順序一樣。

🎯一次學習多個相關概念 Multi-Token Prediction (MTP) : 就像學習新語言時同時掌握多個相關短語，MTP讓模型一次學習多個相關概念，大幅提高學習效率。
【舉例】：學習英文片語時，一次學習一組相關的句子

- - "I'm going to the store"
  - "I'm going to the park"
  - "I'm going to school"

這樣透過重複相同結構但替換不同地點，可以更有效率地掌握「I'm going to」這個句型，這就像MTP讓AI模型能夠同時學習多個相關概念，大幅提高學習效率的方式。

🎯積沙成塔 Increasing Accumulation : 透過逐步累積學習成果，模型可以在不增加額外資源的情況下，不斷提升表現。
【舉例】：想像你在玩一個電玩遊戲

- - 每次玩遊戲時，你都會學到一些新技巧
  - 這些技巧會一直保留下來，讓你下次玩時變得更厲害
  - 而且你不需要買更好的遊戲機，就能靠這些累積的經驗變強

Increasing Accumulation讓AI模型能夠逐步累積學習成果，在不需要增加更多硬體資源的情況下，持續提升自己的表現。這就像你在學校讀書一樣，透過每天的學習和複習，知識會慢慢累積，讓你的成績越來越好，而不需要花更多錢補習。

2. 資源配置

🎯多面向關注 Multi-Head Attention (MHA) : 利用MHA技術，模型能夠同時關注不同的細節資訊，從而獲得更全面的理解。

【舉例】：想像你在看一場籃球比賽，同時需要注意多個重要細節

- - 球員的走位和跑位（位置資訊）
  - 球的傳遞路線（動作資訊）
  - 對手的防守策略（戰術資訊）
  - 隊友的手勢暗號（溝通資訊）

就像一個優秀的球員需要同時關注這麼多不同面向的資訊才能做出最佳判斷，MHA技術也是讓AI模型能夠同時關注並處理多個不同層面的資訊，從而得到更全面的理解。

🎯選擇性專家調用 (MOE, Mixture of Experts) : 僅調用部分專家（模型中的部分單元）來處理任務，有效節省計算資源。

【舉例】：想像一間大型醫院的運作方式

- - 當病人來看感冒時，不需要動員所有科別的醫生，只需要調派家醫科或耳鼻喉科醫生即可
  - 如果遇到複雜的車禍病例，可能就需要同時調動急診、骨科、外科等多位專家

MOE就像是醫院的分診系統，根據不同任務的需求，只調動真正需要的「專家」（模型單元），而不是每次都啟動所有資源，這樣就能大幅節省運算資源，提高效率。

🎯作業分流 Load Balancing Problem : 這項技術確保資源分配合理，避免浪費或資源不足。

【舉例】：想像全聯有多個收銀台(請支援收銀? XD)

- - 當某個收銀台排隊人數太多時，會開放新的收銀台
  - 當人潮變少時，會關閉部分收銀台以節省人力
  - 收銀台會根據顧客購物數量多寡來分流，像是快速結帳櫃台只收10件商品以下

這就像Load Balancing技術在做的事 - 依據實際需求來分配資源，既不會造成資源浪費，也不會讓某些地方負擔過重。

🎯彈性運算 FP8 Mix Precision Training : 根據不同任務的需求，靈活切換低精度與高精度計算。低精度運算速度快、成本低，而在關鍵計算上又能使用高精度保證結果準確，達到兩全其美的效果。

【舉例】：就像我們在超市買東西，買蔬菜水果時，我們用「約略估計」的方式（低精度），快速決定買多少；但到了結帳時，就會用精確的電子秤（高精度）來計算實際價格。這種靈活運用不同精確度的方式，既能在日常購物時節省時間，又能在關鍵的付款環節確保準確性。

3. 回饋機制

🎯獎勵式學習 GRPO (Gradient Preference Reward Optimization) : 透過梯度計算來優化模型，根據獎勵信號逐步調整模型參數

【舉例】：像教小孩騎腳踏車，每次小孩摔倒後（信號），父母會告訴孩子該如何調整平衡（梯度計算），孩子就會慢慢調整自己的姿勢（模型參數），直到最後學會騎車為止。

從0到1，再到「0+前人智慧」

過去的大語言模型往往從零開始建立，但這也意味著每一步都需要大量的計算資源。Deepseek則不同，它在前人累積的經驗與技術上做文章，通過多重優化策略實現了

「用更少的資源，做更多的事」

此外，AI蒸餾（AI Distillation）技術的應用，也進一步壓縮了模型規模和計算需求，讓整體成本降到令人咋舌的低水平。

結語

Deepseek的出現，代表著AI領域的一次重大變革。從降低訓練成本、提高學習效率到資源的高效配置，這些技術的綜合運用，讓原本被認為是「高效能必然需要高資源」的傳統觀念受到了挑戰。對於Nvidia以及整個人工智慧產業來說，這既是一種突破，更是一個全新的開始。未來，我們或許會看到更多類似Deepseek這樣的創新技術，進一步推動AI的普及與應用。

你也有用AI嗎? 喜歡這類的分享嗎?

歡迎追蹤木木IG(@keytakeaway2401) ，跟我分享你的心得 :)

謝謝看到這裡的你，歡迎留言簽到 :)