【超白話】讓Nvidia一天蒸發6000億美元的Deepseek:到底為何成本這麼低?

更新於 發佈於 閱讀時間約 6 分鐘

2025農曆新年假期期間,新的大語言模型Deepseek的出現導致Nvidia一天蒸發6000億美元市值,股價重挫17% ( Investopedia ),Deepseek這項技術對Nvidia的股價產生如此劇烈的衝擊,正是因為它顛覆了傳統大語言模型「高效能=高資源」的印象。本文將用最簡單的語言,帶你了解Deepseek如何在保有高效能的同時,大幅降低運算成本。


高效能≠高資源投入

傳統上,大語言模型的訓練常常需要龐大的資源和計算力。例如,OpenAI最新的o3模型在低計算模式下,每個消耗3,300萬Token的任務就要花費17至20美金;但如果採用高計算模式,成本甚至會放大172倍——換算下來,每解一道題目竟可能花費十萬台幣!這樣的成本對於大規模應用來說,無疑是一道巨大的門檻。

Deepseek的出現正是要打破這種傳統觀念。它憑藉著前人的經驗累積,採用創新技術與策略,在固定效能下讓系統做更多事情,換句話說,就是「做一樣的事,但用更少的效能」。


降低模型訓練成本的三大策略

1. 學習策略

🎯資料壓縮 : 在不損失關鍵訊息的情況下,縮減訓練所需的資料量,使模型能更快學習。

raw-image


🎯Rotary Positional Embedding : 幫助模型理解每個詞在句子中的位置,有效提升模型對語言結構的把握。
【舉例】:想像你在看一部電影,電影中的每個場景都有其特定的時間順序

      • 就像你知道「早上起床→刷牙→吃早餐」這個順序是有意義的,反過來「吃早餐→刷牙→起床」則不合理
      • 或是在閱讀一個句子時,「我喜歡吃蘋果」和「蘋果吃喜歡我」的詞語位置不同,意思就完全不同

Rotary Positional Embedding就像是在AI模型中加入了這種「位置感知能力」,讓它能夠理解並正確處理語言中的順序關係,就像我們人類自然而然能理解語言中的先後順序一樣。


🎯Multi-Token Prediction (MTP) : 就像學習新語言時同時掌握多個相關短語,MTP讓模型一次學習多個相關概念,大幅提高學習效率。
【舉例】:學習英文片語時,一次學習一組相關的句子

      • "I'm going to the store"
      • "I'm going to the park"
      • "I'm going to school"

這樣透過重複相同結構但替換不同地點,可以更有效率地掌握「I'm going to」這個句型,這就像MTP讓AI模型能夠同時學習多個相關概念,大幅提高學習效率的方式。


🎯Increasing Accumulation : 透過逐步累積學習成果,模型可以在不增加額外資源的情況下,不斷提升表現。
【舉例】:想像你在玩一個電玩遊戲

      • 每次玩遊戲時,你都會學到一些新技巧
      • 這些技巧會一直保留下來,讓你下次玩時變得更厲害
      • 而且你不需要買更好的遊戲機,就能靠這些累積的經驗變強

Increasing Accumulation讓AI模型能夠逐步累積學習成果,在不需要增加更多硬體資源的情況下,持續提升自己的表現。這就像你在學校讀書一樣,透過每天的學習和複習,知識會慢慢累積,讓你的成績越來越好,而不需要花更多錢補習。


2. 資源配置

🎯Multi-Head Attention (MHA) : 利用MHA技術,模型能夠同時關注不同的細節資訊,從而獲得更全面的理解。

【舉例】:想像你在看一場籃球比賽,同時需要注意多個重要細節

      • 球員的走位和跑位(位置資訊)
      • 球的傳遞路線(動作資訊)
      • 對手的防守策略(戰術資訊)
      • 隊友的手勢暗號(溝通資訊)

就像一個優秀的球員需要同時關注這麼多不同面向的資訊才能做出最佳判斷,MHA技術也是讓AI模型能夠同時關注並處理多個不同層面的資訊,從而得到更全面的理解。


🎯部分激活策略 (MOE, Mixture of Experts) : 僅調用部分專家(模型中的部分單元)來處理任務,有效節省計算資源。

【舉例】:想像一間大型醫院的運作方式

      • 當病人來看感冒時,不需要動員所有科別的醫生,只需要調派家醫科或耳鼻喉科醫生即可
      • 如果遇到複雜的車禍病例,可能就需要同時調動急診、骨科、外科等多位專家

MOE就像是醫院的分診系統,根據不同任務的需求,只調動真正需要的「專家」(模型單元),而不是每次都啟動所有資源,這樣就能大幅節省運算資源,提高效率。


🎯Load Balancing Problem 解決方案 : 這項技術確保資源分配合理,避免浪費或資源不足。

【舉例】:想像全聯有多個收銀台(請支援收銀? XD)

      • 當某個收銀台排隊人數太多時,會開放新的收銀台
      • 當人潮變少時,會關閉部分收銀台以節省人力
      • 收銀台會根據顧客購物數量多寡來分流,像是快速結帳櫃台只收10件商品以下

這就像Load Balancing技術在做的事 - 依據實際需求來分配資源,既不會造成資源浪費,也不會讓某些地方負擔過重。


🎯FP8 Mix Precision Training : 根據不同任務的需求,靈活切換低精度與高精度計算。低精度運算速度快、成本低,而在關鍵計算上又能使用高精度保證結果準確,達到兩全其美的效果。

【舉例】:就像我們在超市買東西,買蔬菜水果時,我們用「約略估計」的方式(低精度),快速決定買多少;但到了結帳時,就會用精確的電子秤(高精度)來計算實際價格。這種靈活運用不同精確度的方式,既能在日常購物時節省時間,又能在關鍵的付款環節確保準確性。


3. 回饋機制

🎯GRPO (Gradient Preference Reward Optimization) : 透過梯度計算來優化模型,根據獎勵信號逐步調整模型參數

【舉例】:像教小孩騎腳踏車,每次小孩摔倒後(信號),父母會告訴孩子該如何調整平衡(梯度計算),孩子就會慢慢調整自己的姿勢(模型參數),直到最後學會騎車為止。



從0到1,再到「0+前人智慧」

過去的大語言模型往往從零開始建立,但這也意味著每一步都需要大量的計算資源。Deepseek則不同,它在前人累積的經驗與技術上做文章,通過多重優化策略實現了

「用更少的資源,做更多的事」

此外,AI蒸餾(AI Distillation)技術的應用,也進一步壓縮了模型規模和計算需求,讓整體成本降到令人咋舌的低水平。


結語

Deepseek的出現,代表著AI領域的一次重大變革。從降低訓練成本、提高學習效率到資源的高效配置,這些技術的綜合運用,讓原本被認為是「高效能必然需要高資源」的傳統觀念受到了挑戰。對於Nvidia以及整個人工智慧產業來說,這既是一種突破,更是一個全新的開始。未來,我們或許會看到更多類似Deepseek這樣的創新技術,進一步推動AI的普及與應用。


你也有用AI嗎? 喜歡這類的分享嗎?

歡迎追蹤木木IG(@keytakeaway2401) ,跟我分享你的心得 :)

謝謝看到這裡的你,歡迎留言簽到 :)



avatar-img
0會員
2內容數
留言
avatar-img
留言分享你的想法!

































































陪你 成長職涯 的其他內容
這篇文章提供關於行為面試(Behavioral Interview)的完整指南,包含其目的、STAR法則回答架構、常見問題與答題要點,以及如何準備3到5個具代表性的工作經驗故事,靈活運用於不同問題。
這篇文章提供關於行為面試(Behavioral Interview)的完整指南,包含其目的、STAR法則回答架構、常見問題與答題要點,以及如何準備3到5個具代表性的工作經驗故事,靈活運用於不同問題。
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
你是否也在關注 NVIDIA 的股價走勢?近期這家 AI 晶片巨頭遭遇了一連串壞消息,股價應聲下跌。但別急著悲觀!有分析師認為,這反而可能是絕佳的買進時機。今天就讓我們一起來看看,為什麼在 NVIDIA 股價大跌之際,反而可能是明智投資者的最佳入場時機
Nvidia收123.54美元上揚4.76%,根據路透社22日獨家報導Nvidia正在開發新一代「Blackwell」AI晶片的中國版本,目前暫時定名為「B20」,將完全符合美國目前的出口管制規定,在利多消息刺激下Nvidia止跌上漲,帶動科技類股反攻,SOX大漲4%...
Thumbnail
COMPUTEX 之後 AI 議題持續發燒,其實背後就僅是一間公司把這波熱潮推至高峰:NVIDIA。NVIDIA 憑著 AI GPU 的大獲成功成為市值最高的公司,甚至超越了蘋果和 Google。
25日Nvidia大漲6.76%收126.09美元,結束連續下跌的走勢,漲幅居SOX 30支成分股之冠,之前三個交易日Nvidia一口氣重挫12.89%,讓AI族群也全數哀嚎,隨著Nvidia的止跌轉漲,晶片類股台積電ADR也收漲2.86%,ARM也大漲6.31%......
Thumbnail
  寫這篇文章的時候,NVIDIA的股價還是上漲的,看起來“AI”這個題材還是持續奔跑,要跑到什麼時候我不知道。 不過,可以知道的是,現在只要沾的上邊,說的上故事,都可以有“AI”,下面這張圖是朋友傳給我的,我不得不承認都還“蠻有道理”的。 我想我們都可以幫忙找一些市場“忽略”的AI聯想股
Thumbnail
致力於研發 AI 翻譯的德國新創 DeepL,是 Google 翻譯強勁的競爭對手,2023 年 1 月至今估值已經翻倍成長,上探 20 億美元(約新台幣 643.1 億元)。
Thumbnail
NVIDIA 18日於美股盤後舉行的「GPU Technology Conference」發表旗艦型AI晶片「Blackwell B200」,但19日早盤其股價卻下挫將近4%,收盤上漲1.7%,由於新的晶片具有更高效能,更低的耗能,其對手AMD股價受到衝擊下挫4.86%...
Thumbnail
Nvidia在第四季度財報顯示出強勁表現,超出華爾街預期的盈利和銷售,尤其AI和數據中心業務取得重要突破。然而,供應鏈和數據中心挑戰尚需解決。
Thumbnail
Nvidia將於周三(2/21)收盤後公布財報,需要用實際營收動能證明目前高價是否合理的,目前股價按預估獲利的本益比略高於32倍,在財報公布前夕,出現投資人提前下車的獲利了結賣壓, Nvidia股價下挫4.35%,引發AI族群股價走勢疲弱,AI晶片主要競爭對手AMD股價也重挫4.7%...
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
你是否也在關注 NVIDIA 的股價走勢?近期這家 AI 晶片巨頭遭遇了一連串壞消息,股價應聲下跌。但別急著悲觀!有分析師認為,這反而可能是絕佳的買進時機。今天就讓我們一起來看看,為什麼在 NVIDIA 股價大跌之際,反而可能是明智投資者的最佳入場時機
Nvidia收123.54美元上揚4.76%,根據路透社22日獨家報導Nvidia正在開發新一代「Blackwell」AI晶片的中國版本,目前暫時定名為「B20」,將完全符合美國目前的出口管制規定,在利多消息刺激下Nvidia止跌上漲,帶動科技類股反攻,SOX大漲4%...
Thumbnail
COMPUTEX 之後 AI 議題持續發燒,其實背後就僅是一間公司把這波熱潮推至高峰:NVIDIA。NVIDIA 憑著 AI GPU 的大獲成功成為市值最高的公司,甚至超越了蘋果和 Google。
25日Nvidia大漲6.76%收126.09美元,結束連續下跌的走勢,漲幅居SOX 30支成分股之冠,之前三個交易日Nvidia一口氣重挫12.89%,讓AI族群也全數哀嚎,隨著Nvidia的止跌轉漲,晶片類股台積電ADR也收漲2.86%,ARM也大漲6.31%......
Thumbnail
  寫這篇文章的時候,NVIDIA的股價還是上漲的,看起來“AI”這個題材還是持續奔跑,要跑到什麼時候我不知道。 不過,可以知道的是,現在只要沾的上邊,說的上故事,都可以有“AI”,下面這張圖是朋友傳給我的,我不得不承認都還“蠻有道理”的。 我想我們都可以幫忙找一些市場“忽略”的AI聯想股
Thumbnail
致力於研發 AI 翻譯的德國新創 DeepL,是 Google 翻譯強勁的競爭對手,2023 年 1 月至今估值已經翻倍成長,上探 20 億美元(約新台幣 643.1 億元)。
Thumbnail
NVIDIA 18日於美股盤後舉行的「GPU Technology Conference」發表旗艦型AI晶片「Blackwell B200」,但19日早盤其股價卻下挫將近4%,收盤上漲1.7%,由於新的晶片具有更高效能,更低的耗能,其對手AMD股價受到衝擊下挫4.86%...
Thumbnail
Nvidia在第四季度財報顯示出強勁表現,超出華爾街預期的盈利和銷售,尤其AI和數據中心業務取得重要突破。然而,供應鏈和數據中心挑戰尚需解決。
Thumbnail
Nvidia將於周三(2/21)收盤後公布財報,需要用實際營收動能證明目前高價是否合理的,目前股價按預估獲利的本益比略高於32倍,在財報公布前夕,出現投資人提前下車的獲利了結賣壓, Nvidia股價下挫4.35%,引發AI族群股價走勢疲弱,AI晶片主要競爭對手AMD股價也重挫4.7%...