DeepSeek訓練成本分析

更新於 發佈於 閱讀時間約 6 分鐘

DeepSeek 能以更低的成本 訓練 AI 模型,主要有 以下幾個關鍵優勢,即使其他 AI 公司也在使用 MoE(Mixture-of-Experts)架構,DeepSeek 仍能顯著降低開發成本: --- 1. MoE 架構的極致優化 DeepSeek 並非只是 採用 MoE,而是 將 MoE 的計算效率進一步極限優化,這與 Google 的 Switch Transformer、Mistral Mixtral 有所不同: Sparse Activation(稀疏激活): DeepSeek 在 6,710 億參數 的模型中,每個 token 只用 370 億參數 進行運算(Google Switch Transformer 可能啟用更多)。 更少的計算量 = 更低的 GPU 運行成本,相比 OpenAI 全參數 GPT-4,DeepSeek 可以大幅降低推理成本。 專家權重分配更智能: DeepSeek 的 MoE 採用更精細的路由機制,將不同的 token 智慧分配給最合適的專家網絡,讓 GPU 運算更有效率,減少計算浪費。 極致的訓練數據壓縮: 資料清洗 & Token 選擇:DeepSeek 可能只選擇高價值的語料,減少低質量的 token,從而用更少的 token 訓練出更有效的 AI。 資料增強技術:透過數據擴增,DeepSeek 可能用更少的資料達到更好的效果。 --- 2. 低成本 GPU 使用策略 DeepSeek 的 GPU 運行成本比 OpenAI、Google 低,可能來自以下策略: (1) 使用 H800 而非 H100 DeepSeek 使用的 NVIDIA H800(中國版 H100),性能比 H100 稍低,但價格便宜。 H800 受中國出口管制影響,雖然比 H100 慢,但 DeepSeek 可能獲得了 更優惠的價格 或 政府補助,進一步降低硬體成本。 (2) 高效的 GPU 佈局 & 並行計算 DeepSeek 可能採用了類似 Google TPU Mesh 的架構,讓 2,000 張 H800 GPU 更有效地協作。 這意味著即使 GPU 數量較少,DeepSeek 仍能透過更高效的計算架構達到類似 GPT-4 的訓練效果。 (3) 可能利用中國自研 AI 晶片 由於美國對中國限制高階 GPU 出口,DeepSeek 可能部分使用華為 Ascend 910B、寒武紀 MLU、比特大陸 AI 晶片。 這些國產 AI 晶片雖然效能不如 H100,但成本更低,可以進一步節省支出。 --- 3. 省下昂貴的雲端訓練成本 大部分 AI 公司(如 OpenAI、Anthropic、Mistral)都依賴雲端訓練,需要付給 AWS、Azure 高昂的 GPU 計算費用。 DeepSeek 自建數據中心,而非租用 AWS: OpenAI 訓練 GPT-4 時,花費了數億美元在 Azure 的 GPU 雲端運算。 DeepSeek 可能直接自建數據中心,這樣可以避免長期的雲端租用成本,雖然前期投入較大,但長期來看更具成本優勢。 --- 4. 可能獲得政府支持 & 補助 DeepSeek 作為中國 AI 領域的代表,極有可能獲得中國政府的大力支持,這可能來自: 政府提供 GPU 資源補助(降低 NVIDIA H800 購買成本)。 國家級超算資源支援(可能利用中國的超算中心來降低運算成本)。 本土 AI 生態鏈優惠(中國 AI 產業鏈成熟,減少依賴昂貴的進口技術)。 這使得 DeepSeek 能夠 比 OpenAI、Google、Anthropic 更低成本地訓練 AI 模型。 --- 5. 軟體層面高度優化 DeepSeek 可能透過以下技術進一步降低成本: DeepSpeed / FlashAttention:加快訓練速度,減少 GPU 訓練時間。 進階壓縮技術(如 LoRA, QLoRA):讓模型在 不降低效果的情況下大幅減少計算資源。 更高效的分佈式訓練:讓 2,000 張 H800 GPU 充分發揮計算能力,避免計算閒置。 --- 結論:DeepSeek 的「低成本」= 全面技術優化 DeepSeek 並非只是「砸錢少」就能做到這點,而是: 1. 極致優化 MoE 架構(稀疏激活 + 智慧專家選擇)。 2. 高效 GPU 運算策略(便宜的 H800 + 國產 AI 晶片)。 3. 避免昂貴的雲端租用成本(自建數據中心)。 4. 可能獲得政府支持(資金補助 + 超算資源)。 5. 使用最先進的 AI 訓練優化技術(DeepSpeed, FlashAttention, QLoRA)。 這些因素疊加起來,讓 DeepSeek 在僅使用 2,000 張 H800 GPU 的情況下,達到媲美 GPT-4 的 AI 競爭力,大幅降低成本。 這也解釋了為何 OpenAI、Google、Meta、Anthropic 在投入數億美元後,仍然面臨高昂的 AI 訓練與推理成本,而 DeepSeek 則能以更小的投資獲得類似的效果。

avatar-img
6會員
402內容數
萬物皆空.. 需要的 只是一個乾淨明亮的地方
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
一直都放在房間 的其他內容
刺客聯盟中的超人,心跳400,在目前地球上的人類,除了心房顫動的病例外,沒有在健康的個體中被發現。 在自然界中,某些生物的心跳速率確實可以達到極高的水準,甚至遠超人類的極限。以下是幾種可能達到每分鐘400次或以上心跳的生物: --- 1. 蜂鳥(Hummingbird) 蜂鳥是已知心跳
在未來的某一天,地球上的交通已經完全被自動駕駛技術接管,但人類的價值觀分裂成了兩大陣營——機器派與複製派。兩派都聲稱自己擁有最高效、安全的交通解決方案,而矛盾日漸升級。 起源 機器派由一群領導人工智慧革命的科學家和工程師組成,他們認為人類的駕駛行為太不可控,應該完全交給無情但理性的AI處理。
在一個寂靜的小鎮,網路批發圈中流傳著一個神秘而詭異的名字——「泡泡公主」。這名字聽起來純真可愛,但對於那些誠實經營的生鮮食品老闆們來說,卻是惡夢的代名詞。 --- 泡泡公主的「偉大生意計劃」 泡泡公主是一位總是打扮得珠光寶氣的年輕女子,天生一副傲嬌模樣。她非常享受當眾人焦點的感覺,也特別喜
溫州的秋天總是帶著些許潮濕與鹹味,來自東海的風緩緩吹過鹿城的街巷,將鹽與魚的味道帶進老街。這裡有個人,人稱「大牛吞」,本名許牛吞。 牛吞身材魁梧,膀闊腰圓,雙手如蒲扇,卻一雙眼細長如刀,透著股狠勁。他不是個普通的溫州人,因為他做著最不普通的買賣——古玩與走私。 老溫州人都知道,五馬街
早上接到一通電話打來推銷團購傳真到各辦公室的方案 請她寄到Email 結果她回說她是語音機器人.. 要先請問我貴姓 聲音跟真人的接近程度越來越高了 講話的延遲性則讓我第一秒就覺得有破綻 後來立即掛掉 不給她採樣更多語音 以防其利用口音製造假信息的可能性.. 剛好前陣子才再
錢,總是安靜地躺在手心裡,等著被花掉。有人把它丟進市場裡,像農夫播下種子;有人把它推上賭桌,像是丟骰子的傢伙;也有人拿它去換一局遊戲,贏了笑,輸了也笑。 投資不是興致來了就幹的事。那是一場緩慢而冷靜的戰爭,算計著風向、土壤、氣候,然後才撒下種子。錢在這裡是一把鋤頭,一個鋤頭用不好,會砸到自
刺客聯盟中的超人,心跳400,在目前地球上的人類,除了心房顫動的病例外,沒有在健康的個體中被發現。 在自然界中,某些生物的心跳速率確實可以達到極高的水準,甚至遠超人類的極限。以下是幾種可能達到每分鐘400次或以上心跳的生物: --- 1. 蜂鳥(Hummingbird) 蜂鳥是已知心跳
在未來的某一天,地球上的交通已經完全被自動駕駛技術接管,但人類的價值觀分裂成了兩大陣營——機器派與複製派。兩派都聲稱自己擁有最高效、安全的交通解決方案,而矛盾日漸升級。 起源 機器派由一群領導人工智慧革命的科學家和工程師組成,他們認為人類的駕駛行為太不可控,應該完全交給無情但理性的AI處理。
在一個寂靜的小鎮,網路批發圈中流傳著一個神秘而詭異的名字——「泡泡公主」。這名字聽起來純真可愛,但對於那些誠實經營的生鮮食品老闆們來說,卻是惡夢的代名詞。 --- 泡泡公主的「偉大生意計劃」 泡泡公主是一位總是打扮得珠光寶氣的年輕女子,天生一副傲嬌模樣。她非常享受當眾人焦點的感覺,也特別喜
溫州的秋天總是帶著些許潮濕與鹹味,來自東海的風緩緩吹過鹿城的街巷,將鹽與魚的味道帶進老街。這裡有個人,人稱「大牛吞」,本名許牛吞。 牛吞身材魁梧,膀闊腰圓,雙手如蒲扇,卻一雙眼細長如刀,透著股狠勁。他不是個普通的溫州人,因為他做著最不普通的買賣——古玩與走私。 老溫州人都知道,五馬街
早上接到一通電話打來推銷團購傳真到各辦公室的方案 請她寄到Email 結果她回說她是語音機器人.. 要先請問我貴姓 聲音跟真人的接近程度越來越高了 講話的延遲性則讓我第一秒就覺得有破綻 後來立即掛掉 不給她採樣更多語音 以防其利用口音製造假信息的可能性.. 剛好前陣子才再
錢,總是安靜地躺在手心裡,等著被花掉。有人把它丟進市場裡,像農夫播下種子;有人把它推上賭桌,像是丟骰子的傢伙;也有人拿它去換一局遊戲,贏了笑,輸了也笑。 投資不是興致來了就幹的事。那是一場緩慢而冷靜的戰爭,算計著風向、土壤、氣候,然後才撒下種子。錢在這裡是一把鋤頭,一個鋤頭用不好,會砸到自
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 33中,見識了基於 Transformer 的 Google 翻譯威力,評論如下: Google 翻譯似乎已經解決了 Corefer
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 33中,見識了基於 Transformer 的 Google 翻譯威力,評論如下: Google 翻譯似乎已經解決了 Corefer