DeepSeek是甚麼

DA的美股日記

更新於 2025/01/27發佈於 2025/01/27閱讀時間約 6 分鐘

投資理財內容聲明

DeepSeek-V3採用了高效的混合專家(Mixture of Experts, MoE)架構,這種設計大幅提高了計算效率,降低了訓練和運行成本。具體來說:

MoE架構概述

- 總參數量為671B,但每個token只激活37B參數。

- MoE架構將模型分為多個"專家"子網絡,每個專家專門處理特定類型的輸入。

- 使用"門控網絡"(gating network)來決定將輸入分配給哪些專家處理。

效率提升原理

稀疏激活

- 每次處理只激活一小部分專家,而非整個網絡。

- 這種稀疏激活大大降低了計算成本,同時保持了模型的高容量。

動態路由

- 門控網絡根據輸入特徵動態選擇最相關的專家。

- 這確保了只有最相關的部分被激活,提高了計算效率。

參數利用率提升

- 雖然總參數量很大,但實際計算只使用其中一小部分。

- 這種設計允許模型在保持較低計算成本的同時,擁有更大的容量。

通過這種架構,DeepSeek-V3在保持高性能的同時,顯著降低了訓練和推理的計算成本,使得大規模語言模型的應用更加高效和實用。

1. 總參數量為671B，但每個 token 只激活37B參數

這裡提到的 671B（Billion）參數 是指整個 MoE 模型的總參數規模。這意味著模型非常大，擁有許多潛在的專家網絡和能力。
每個 token 只激活37B參數 的意思是，MoE架構並不會讓所有專家網絡同時運作，而是通過稀疏激活機制，只選擇最相關的一部分專家（如約37B參數）來處理輸入數據，這大幅降低了運算成本。

關鍵點：

稀疏激活：MoE架構的核心特性之一，只有部分專家被激活，減少不必要的計算資源消耗。
動態選擇：不同的輸入會激活不同的專家模型，因此每次處理的參數量變少，但模型仍能保持高效能。

2. MoE架構將模型分為多個"專家"子網絡，每個專家專門處理特定類型的輸入

專家子網絡 是 MoE 模型的基本組件，每個專家相當於一個小的神經網絡，專注於處理特定特性的輸入數據。
這種分工可以讓每個專家更專注於學習某一類型的特徵或模式，而非讓整個模型嘗試去學習所有可能的輸入。
舉例：
- 如果輸入的是自然語言數據，一些專家可能專注於處理動詞相關的特徵，而另一些專家則專注於名詞或句子結構。

關鍵點：

專家的設計讓模型能以更針對性的方式處理輸入，類似於讓專家團隊各司其職來解決問題。

3. 使用"門控網絡"（gating network）來決定將輸入分配給哪些專家處理

門控網絡 是 MoE 架構中的重要組件，負責決策輸入應該分配給哪些專家處理。
它的工作方式類似於一個調度員：根據每個輸入數據的特性，計算出與哪些專家最匹配，並將這些輸入數據分配給對應的專家進行處理。
門控網絡的輸出 通常是一個加權分佈，指示每個專家對這個輸入的相關性。

舉例：

如果門控網絡接收到一句英文句子，它可能判斷這句話主要涉及動詞變化，於是激活專注於動詞處理的專家。

關鍵點：

智能分配：門控網絡確保每個輸入都能被最合適的專家處理。
稀疏性：門控網絡只會激活少數專家，避免了模型內部資源的浪費。

整體理解：

這段話的意思可以總結為：

MoE架構 通過將模型分成多個專家子網絡，讓每個專家專注於特定的任務或輸入特性。
使用 門控網絡 動態選擇最合適的專家來處理每個輸入數據，避免同時激活所有專家。
雖然模型的總參數規模很大（671B），但因為稀疏激活機制，每次處理只需要一小部分參數（37B），這在保持高效能的同時降低了計算成本。

總參數量 是指深度學習模型中所有可訓練參數的總數量。這些參數是模型用來學習和捕捉數據特徵的核心部分，通常是神經網絡中的權重（weights）和偏置（biases）。

總參數量的意義：

模型的大小和能力
- 總參數量越大，模型的表現力（capacity）越強，理論上能捕捉到更複雜的特徵和模式。
- 像 GPT-4 這樣的大型模型，參數量通常達到數百億甚至數千億。
計算成本
- 總參數量直接影響訓練和推理所需的計算資源。參數越多，計算量越大，對硬體（如 GPU 或 TPU）的需求也越高。
- 對於大模型，如果能透過機制（如稀疏激活）降低實際運算的參數量，會顯著減少資源消耗。
記憶體需求
- 大量參數需要存儲在記憶體中，因此模型越大，對記憶體的需求越高。
- 比如在訓練 671B 參數的模型時，可能需要超大規模的分布式記憶體系統來支持。

MoE 的優勢在於效率：
- 儘管模型非常大（總參數量高達 671B），它的稀疏激活（Sparse Activation）機制只使用最相關的專家處理輸入數據，而不是讓整個模型參與計算。
- 這大大降低了計算和記憶體開銷。
參數的大小影響性能：
- 傳統的大型模型（如全連接 Transformer 模型）需要每次激活所有參數來處理輸入數據，計算成本非常高。
- MoE 模型的設計讓總參數量保持大規模，但實際運算的參數量小（37B），既能保留模型的強大表現力，又能顯著提升效率。

延伸：為什麼這重要？

在深度學習中，「模型的大小」和「計算效率」之間是一個關鍵的平衡點：

大參數模型的好處： 更高的能力、更好的表現力，尤其在處理像自然語言生成或圖像生成這類需要高複雜度的任務時。
大參數模型的挑戰： 計算和記憶體成本太高，對訓練基礎設施的要求非常苛刻。

MoE 架構正好解決了這個矛盾：

透過動態選擇專家（稀疏激活），保留了高效能的同時降低了不必要的運算，讓超大規模模型（如 671B 參數）能在現實中更高效運行。

留言

留言分享你的想法！

DA的美股日記

6會員

294內容數

DA的美股日記的其他內容

2025/04/26

什麼是「貨幣市場基金」？

✅ 什麼是「貨幣市場基金」？貨幣市場基金是一種非常低風險的投資工具，主要投資在：短期國庫券（T-bills）銀行定存短期政府或高信評企業的商業票據它的特性是：收益穩定但很低隨時可以提領（高度流動性）是現金的替代品，投資人常用來暫停觀望、停泊資金 📉 如果「大量流

2025/04/26

什麼是「貨幣市場基金」？

2025/03/29

DPI（Disposable Personal Income）

✅ DPI 是什麼？它是指一個人收到的總收入扣除個人所得稅後，真正可以自由支配來消費或儲蓄的收入。 🔍 舉例說明：假設你這個月收入為 $5,000 你繳了 $1,000 的所得稅那你的 DPI 就是：這 $4,000 就是你可以拿來：消費（吃飯、旅遊、買衣服）

2025/03/29

DPI（Disposable Personal Income）

2025/03/29

PCE物價指數（PCE Price Index）和個人支出（Personal Outlays）混淆

🔹 1. PCE Price Index（個人消費支出物價指數）是「物價變化率」的指標 PCE = Personal Consumption Expenditures PCE Price Index 反映的是「你買的東西變貴了多少？」 ✅ 舉例說明：假設你這個月花了100元買東西，跟上個

2025/03/29

PCE物價指數（PCE Price Index）和個人支出（Personal Outlays）混淆

看更多

你可能也想看

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

全球科技產業的焦點，AKA 全村的希望 NVIDIA，於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1，實際日曆期間為今年二到四月)，交出了打敗了市場預期的成績單。然而，在銷售持續高速成長的同時，川普政府加大對於中國的晶片管制......

#NVDA#NVIDIA#輝達

2025/06/18

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

#NVDA#NVIDIA#輝達

2025/06/18

Invest Your Lifes

教你看懂中國的 DeepSeek V3

本文探討大型語言模型的發展趨勢，並以DeepSeek-V3為例，分析其在模型架構、訓練方法和效率成本上的改進。作者指出，大型語言模型的競爭焦點已轉向實際應用和數據的運用，而非模型間微小的性能差異。

2025/04/03

2025/04/03

DeepSeek-V3-0324悄悄發布：特色與性能一次解析

DeepSeek-V3-0324是2025年3月推出的開源AI模型，以6850億參數和MoE架構在程式設計與語言處理中表現出色。本文詳細介紹其特色（如128K上下文窗口、低成本API）、與Claude 3.7 Sonnet、GPT-4.5等模型的比較，助您了解這款改變AI格局的新星。

#人工智慧#AI#科技公司

2025/03/25

TN科技筆記(TechNotes)的沙龍

DeepSeek-V3-0324悄悄發布：特色與性能一次解析

#人工智慧#AI#科技公司

2025/03/25

夜星的沙龍

Deepseek開源週,第二個開源項目DeepEP

DeepEP透過通信協議層的創新，從系統工程角度解決大模型訓練的擴展瓶頸，其技術路徑有別於單純增加模型參數量，而是從計算本質效率切入，為LLM的實用化部署提供關鍵基礎設施支持。

#DeepSeek#方格新手#DeepEP

2025/02/25

夜星的沙龍

Deepseek開源週,第二個開源項目DeepEP

#DeepSeek#方格新手#DeepEP

2025/02/25

有所思，有所感∣一隻自由靈魂的貓

【DeepSeek】與其他Ai模型的不同優勢與劣勢

詳述DeepSeek與其他AI模型的比較，並探討優勢、劣勢及應用領域。 DeepSeek優勢在於中文語義理解，以及金融和法律領域的專業知識，但創意多樣性略遜於GPT-4。

#DeepSeek#ChatGPT#GPT-4

2025/02/13

有所思，有所感∣一隻自由靈魂的貓

【DeepSeek】與其他Ai模型的不同優勢與劣勢

#DeepSeek#ChatGPT#GPT-4

2025/02/13

AI.ESG.數位轉型顧問沈重宗

混合專家架構（Mixture of Experts, MoE）在DeepSeek中透過多種方式顯著提高了決策質量。

混合專家架構（Mixture of Experts, MoE）在DeepSeek中透過多種方式顯著提高了決策質量。以下是該架構如何實現這一目標的幾個關鍵方面：動態激活機制選擇性激活 DeepSeek的MoE架構允許模型在處理查詢時，僅激活與該任務最相關的專家。這種選

#DeepSeek#決策#模型

2025/02/13

AI.ESG.數位轉型顧問沈重宗

混合專家架構（Mixture of Experts, MoE）在DeepSeek中透過多種方式顯著提高了決策質量。

#DeepSeek#決策#模型

2025/02/13

Jia's Talk 嘉式頭殼

【AI】從百萬到千萬：DeepSeek如何改寫AI訓練成本的行業規則？

DeepSeek以557.6萬美元訓練成本，顛覆AI行業規則！從「架構瘦身」到「數據煉金」，再到「硬體巫術」，這家中國AI新星用技術與商業策略的組合拳，將成本壓縮至GPT-4的1/20。未來，AI競爭將從「算力軍備」轉向「效率革命」。

#AI#DeepSeek#GPU

2025/02/11

Jia's Talk 嘉式頭殼

【AI】從百萬到千萬：DeepSeek如何改寫AI訓練成本的行業規則？

#AI#DeepSeek#GPU

2025/02/11

瀚哥的人生應用題的沙龍

DeepSeek 逆襲 OpenAI！三大 AI 進化法則，看個人成長的關鍵策略

AI 世界正掀起一場變革！🔥 近期，DeepSeek 這家來自中國的 AI 公司，以開源策略、知識蒸餾（Distillation）、混合專家（Mixture of Experts, MoE）技術，成功挑戰 OpenAI，震撼了全球 AI 社群。這不只是技術的突破，更是一場「成長戰略」的最佳示範！

#DeepSeek#OpenAI#模型

2025/02/09

瀚哥的人生應用題的沙龍

DeepSeek 逆襲 OpenAI！三大 AI 進化法則，看個人成長的關鍵策略

#DeepSeek#OpenAI#模型

2025/02/09

水源駝哥 / 科技導讀與應用思考

深度求索 DeepSeek：低成本AI模型引發的產業變革與未來趨勢預測

低成本AI模型 DeepSeek-R1 的出現，在矽谷和華爾街引發震盪。本文探討DeepSeek如何以混合專家架構(MoE)降低AI訓練成本，衝擊市場估值，並分析其對AI產業、算力需求、能源消耗及相關技術發展的影響，包含專用晶片產業的未來走向。文章同時反思中美AI產業的發展模式差異與優劣。

#科技#科學#科普

2025/01/28

水源駝哥 / 科技導讀與應用思考

深度求索 DeepSeek：低成本AI模型引發的產業變革與未來趨勢預測

#科技#科學#科普

2025/01/28

狐思亂想的沙龍

夯番薯週記｜DeepSeek

在這一個月內中國Ai新創公司發表 DeepSeek-V3 和 DeepSeek-R1 兩款大語言模型，其中R1模型僅花費600萬美元，並在兩個月內完成訓練；相較於美國Ai巨頭動輒上億美金的模型訓練費，打破了傳統認知「高成本高效能」，並且在成果上顯示，DeepSeek在許多方面都與當今最強的模型並列。

#科技公司#晶片#NVIDIA

2025/01/28