DeepSeek訓練成本分析

更新於 2025/01/31發佈於 2025/01/31閱讀時間約 6 分鐘

DeepSeek 能以更低的成本訓練 AI 模型，主要有以下幾個關鍵優勢，即使其他 AI 公司也在使用 MoE（Mixture-of-Experts）架構，DeepSeek 仍能顯著降低開發成本： --- 1. MoE 架構的極致優化 DeepSeek 並非只是採用 MoE，而是將 MoE 的計算效率進一步極限優化，這與 Google 的 Switch Transformer、Mistral Mixtral 有所不同： Sparse Activation（稀疏激活）： DeepSeek 在 6,710 億參數的模型中，每個 token 只用 370 億參數進行運算（Google Switch Transformer 可能啟用更多）。更少的計算量 = 更低的 GPU 運行成本，相比 OpenAI 全參數 GPT-4，DeepSeek 可以大幅降低推理成本。專家權重分配更智能： DeepSeek 的 MoE 採用更精細的路由機制，將不同的 token 智慧分配給最合適的專家網絡，讓 GPU 運算更有效率，減少計算浪費。極致的訓練數據壓縮：資料清洗 & Token 選擇：DeepSeek 可能只選擇高價值的語料，減少低質量的 token，從而用更少的 token 訓練出更有效的 AI。資料增強技術：透過數據擴增，DeepSeek 可能用更少的資料達到更好的效果。 --- 2. 低成本 GPU 使用策略 DeepSeek 的 GPU 運行成本比 OpenAI、Google 低，可能來自以下策略： (1) 使用 H800 而非 H100 DeepSeek 使用的 NVIDIA H800（中國版 H100），性能比 H100 稍低，但價格便宜。 H800 受中國出口管制影響，雖然比 H100 慢，但 DeepSeek 可能獲得了更優惠的價格或政府補助，進一步降低硬體成本。 (2) 高效的 GPU 佈局 & 並行計算 DeepSeek 可能採用了類似 Google TPU Mesh 的架構，讓 2,000 張 H800 GPU 更有效地協作。這意味著即使 GPU 數量較少，DeepSeek 仍能透過更高效的計算架構達到類似 GPT-4 的訓練效果。 (3) 可能利用中國自研 AI 晶片由於美國對中國限制高階 GPU 出口，DeepSeek 可能部分使用華為 Ascend 910B、寒武紀 MLU、比特大陸 AI 晶片。這些國產 AI 晶片雖然效能不如 H100，但成本更低，可以進一步節省支出。 --- 3. 省下昂貴的雲端訓練成本大部分 AI 公司（如 OpenAI、Anthropic、Mistral）都依賴雲端訓練，需要付給 AWS、Azure 高昂的 GPU 計算費用。 DeepSeek 自建數據中心，而非租用 AWS： OpenAI 訓練 GPT-4 時，花費了數億美元在 Azure 的 GPU 雲端運算。 DeepSeek 可能直接自建數據中心，這樣可以避免長期的雲端租用成本，雖然前期投入較大，但長期來看更具成本優勢。 --- 4. 可能獲得政府支持 & 補助 DeepSeek 作為中國 AI 領域的代表，極有可能獲得中國政府的大力支持，這可能來自：政府提供 GPU 資源補助（降低 NVIDIA H800 購買成本）。國家級超算資源支援（可能利用中國的超算中心來降低運算成本）。本土 AI 生態鏈優惠（中國 AI 產業鏈成熟，減少依賴昂貴的進口技術）。這使得 DeepSeek 能夠比 OpenAI、Google、Anthropic 更低成本地訓練 AI 模型。 --- 5. 軟體層面高度優化 DeepSeek 可能透過以下技術進一步降低成本： DeepSpeed / FlashAttention：加快訓練速度，減少 GPU 訓練時間。進階壓縮技術（如 LoRA, QLoRA）：讓模型在不降低效果的情況下大幅減少計算資源。更高效的分佈式訓練：讓 2,000 張 H800 GPU 充分發揮計算能力，避免計算閒置。 --- 結論：DeepSeek 的「低成本」= 全面技術優化 DeepSeek 並非只是「砸錢少」就能做到這點，而是： 1. 極致優化 MoE 架構（稀疏激活 + 智慧專家選擇）。 2. 高效 GPU 運算策略（便宜的 H800 + 國產 AI 晶片）。 3. 避免昂貴的雲端租用成本（自建數據中心）。 4. 可能獲得政府支持（資金補助 + 超算資源）。 5. 使用最先進的 AI 訓練優化技術（DeepSpeed, FlashAttention, QLoRA）。這些因素疊加起來，讓 DeepSeek 在僅使用 2,000 張 H800 GPU 的情況下，達到媲美 GPT-4 的 AI 競爭力，大幅降低成本。這也解釋了為何 OpenAI、Google、Meta、Anthropic 在投入數億美元後，仍然面臨高昂的 AI 訓練與推理成本，而 DeepSeek 則能以更小的投資獲得類似的效果。

#DeepSeek

留言

留言分享你的想法！

琉球人

2025/02/02

對深度學習技術不甚了解，不過很期待可以馬上快速應用到工作上。

一直都放在房間

8會員

569內容數

萬物皆空.. 需要的只是一個乾淨明亮的地方

一直都放在房間的其他內容

2025/04/27

可悲的角落 | 兔子與縱天

夜裡，鄒縱天翻身無數次，床單皺成一片陌生的海。他拿起手機，指尖滑過冷冷的螢幕。社群平台影片跳了出來。標題寫著：【1秒都不能餓到】貪吃兔守候餵食機　飼料掉落秒歪頭大口吃取畫面裡，兔子蹲坐在機器下，眼睛圓滾滾，耳朵緊貼著背脊，身子微微發抖。飼料落下的聲音很輕，

2025/04/27

可悲的角落 | 兔子與縱天

2025/04/24

【高樓火災逃生全攻略】樓下樓梯起火怎麼辦？119＋自救流程一次搞懂

114.4.24 今天早上，我驚覺樓下起火。濃煙竄升至樓梯間，幾乎無法視物。我奪門而出、逃至室外，所幸無恙。但回頭望著那吞噬空氣與秩序的黑煙，我問自己：如果火煙源自樓梯口，怎麼辦？如果門打不開？消防隊還沒到？我，還能活嗎？這篇文章，寫給每一個住在高樓、以樓梯為唯一出路的

2025/04/24

【高樓火災逃生全攻略】樓下樓梯起火怎麼辦？119＋自救流程一次搞懂

2025/04/23

Alginate Gel Immobilized Algae：創新的藻類固定技術，解決環境問題

Alginate Gel Immobilized Algae：創新的藻類固定技術，解決環境問題在當今環境保護與可持續發展的背景下，藻類的應用已經成為研究的熱點之一。特別是海藻酸鹽凝膠包埋藻類技術，作為一種新型的環境修復方法，受到了廣泛的關注。這項技術不僅能夠有效處理水中的污染物，還能夠提高藻類的

2025/04/23

Alginate Gel Immobilized Algae：創新的藻類固定技術，解決環境問題

看更多

你可能也想看

方格子 vocus 官方沙龍

沙龍介面新登場！自訂你的創作空間，讓好內容被看見

沙龍一直是創作與交流的重要空間，這次 vocus 全面改版了沙龍介面，就是為了讓好內容被好好看見！你可以自由編排你的沙龍首頁版位，新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。改版完成後可以在社群媒體分享新版面，並標記 @vocus.official⁠ ♥️ ⁠

#vocus#方格子#方格子沙龍

2025/06/12

方格子 vocus 官方沙龍

沙龍介面新登場！自訂你的創作空間，讓好內容被看見

#vocus#方格子#方格子沙龍

2025/06/12

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

全球科技產業的焦點，AKA 全村的希望 NVIDIA，於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1，實際日曆期間為今年二到四月)，交出了打敗了市場預期的成績單。然而，在銷售持續高速成長的同時，川普政府加大對於中國的晶片管制......

#NVDA#NVIDIA#輝達

2025/06/18

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

#NVDA#NVIDIA#輝達

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

重點摘要： 6 月繼續維持基準利率不變，強調維持高利率主因為關稅點陣圖表現略為鷹派，收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變，強調需要維持高利率是因為關稅：聯準會 (Fed) 召開 6 月利率會議

#Fed#聯準會#美股

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

#Fed#聯準會#美股

2025/06/18

Invest Your Lifes

教你看懂中國的 DeepSeek V3

本文探討大型語言模型的發展趨勢，並以DeepSeek-V3為例，分析其在模型架構、訓練方法和效率成本上的改進。作者指出，大型語言模型的競爭焦點已轉向實際應用和數據的運用，而非模型間微小的性能差異。

2025/04/03

2025/04/03

DeepSeek技術的優缺點分析，以及在LLM開發和商業化應用上的潛力評估。文章探討DeepSeek的蒸餾學習機制，並與傳統的生成式AI訓練方法進行比較，同時也提及強化學習在提升模型性能中的關鍵作用。最後，作者從企業資安角度出發，對DeepSeek的應用提出保留意見，但仍肯定其發展前景。

2025/03/10

2025/03/10

【DeepSeek】與其他Ai模型的不同優勢與劣勢

詳述DeepSeek與其他AI模型的比較，並探討優勢、劣勢及應用領域。 DeepSeek優勢在於中文語義理解，以及金融和法律領域的專業知識，但創意多樣性略遜於GPT-4。

#DeepSeek#ChatGPT#GPT-4

2025/02/13

有所思，有所感∣一隻自由靈魂的貓

【DeepSeek】與其他Ai模型的不同優勢與劣勢

#DeepSeek#ChatGPT#GPT-4

2025/02/13

AI.ESG.數位轉型顧問沈重宗

混合專家架構（Mixture of Experts, MoE）在DeepSeek中透過多種方式顯著提高了決策質量。

混合專家架構（Mixture of Experts, MoE）在DeepSeek中透過多種方式顯著提高了決策質量。以下是該架構如何實現這一目標的幾個關鍵方面：動態激活機制選擇性激活 DeepSeek的MoE架構允許模型在處理查詢時，僅激活與該任務最相關的專家。這種選

#DeepSeek#決策#模型

2025/02/13

AI.ESG.數位轉型顧問沈重宗

混合專家架構（Mixture of Experts, MoE）在DeepSeek中透過多種方式顯著提高了決策質量。

#DeepSeek#決策#模型

2025/02/13

Jia's Talk 嘉式頭殼

【AI】從百萬到千萬：DeepSeek如何改寫AI訓練成本的行業規則？

DeepSeek以557.6萬美元訓練成本，顛覆AI行業規則！從「架構瘦身」到「數據煉金」，再到「硬體巫術」，這家中國AI新星用技術與商業策略的組合拳，將成本壓縮至GPT-4的1/20。未來，AI競爭將從「算力軍備」轉向「效率革命」。

#AI#DeepSeek#GPU

2025/02/11

Jia's Talk 嘉式頭殼

【AI】從百萬到千萬：DeepSeek如何改寫AI訓練成本的行業規則？

#AI#DeepSeek#GPU

2025/02/11

瀚哥的人生應用題的沙龍

DeepSeek 逆襲 OpenAI！三大 AI 進化法則，看個人成長的關鍵策略

AI 世界正掀起一場變革！🔥 近期，DeepSeek 這家來自中國的 AI 公司，以開源策略、知識蒸餾（Distillation）、混合專家（Mixture of Experts, MoE）技術，成功挑戰 OpenAI，震撼了全球 AI 社群。這不只是技術的突破，更是一場「成長戰略」的最佳示範！

#DeepSeek#OpenAI#模型

2025/02/09

瀚哥的人生應用題的沙龍

DeepSeek 逆襲 OpenAI！三大 AI 進化法則，看個人成長的關鍵策略

#DeepSeek#OpenAI#模型

2025/02/09

馬克的小知識大財富的沙龍

AI需求爆發｜DeepSeek的技術突破，帶動更多AI應用

中國AI模型DeepSeek崛起，其低成本訓練模式引發市場關注，探討其對臺灣伺服器ODM產業的影響，以及長期發展潛力。

#鴻海#AI伺服器#DeepSeek

2025/02/04

馬克的小知識大財富的沙龍

AI需求爆發｜DeepSeek的技術突破，帶動更多AI應用

中國AI模型DeepSeek崛起，其低成本訓練模式引發市場關注，探討其對臺灣伺服器ODM產業的影響，以及長期發展潛力。

#鴻海#AI伺服器#DeepSeek

2025/02/04

AI.ESG.數位轉型顧問沈重宗

DeepSeek R1 與 OpenAI o3-mini 比較表

DeepSeek R1 與 OpenAI o3-mini 比較表：成本與開源性： DeepSeek R1 的開源特性和低成本使其對開發者和中小型企業更具吸引力，尤其是在需要大量處理 tokens 的應用場景中。 OpenAI o3-mini 的價格相對較高，但其輕量化設計和穩定的推理能力

#DeepSeek#OpenAI#成本

2025/02/03

AI.ESG.數位轉型顧問沈重宗

DeepSeek R1 與 OpenAI o3-mini 比較表

#DeepSeek#OpenAI#成本

2025/02/03

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News