DeepSeek是甚麼

更新於 發佈於 閱讀時間約 6 分鐘
  • 文內如有投資理財相關經驗、知識、資訊等內容,皆為創作者個人分享行為。
  • 有價證券、指數與衍生性商品之數據資料,僅供輔助說明之用,不代表創作者投資決策之推介及建議。
  • 閱讀同時,請審慎思考自身條件及自我決策,並應有為決策負責之事前認知。
  • 方格子希望您能從這些分享內容汲取投資養份,養成獨立思考的能力、判斷、行動,成就最適合您的投資理財模式。

DeepSeek-V3採用了高效的混合專家(Mixture of Experts, MoE)架構,這種設計大幅提高了計算效率,降低了訓練和運行成本。具體來說:


MoE架構概述


- 總參數量為671B,但每個token只激活37B參數。

- MoE架構將模型分為多個"專家"子網絡,每個專家專門處理特定類型的輸入。

- 使用"門控網絡"(gating network)來決定將輸入分配給哪些專家處理。


效率提升原理


  1. 稀疏激活

- 每次處理只激活一小部分專家,而非整個網絡。

- 這種稀疏激活大大降低了計算成本,同時保持了模型的高容量。


  1. 動態路由

- 門控網絡根據輸入特徵動態選擇最相關的專家。

- 這確保了只有最相關的部分被激活,提高了計算效率。


  1. 參數利用率提升

- 雖然總參數量很大,但實際計算只使用其中一小部分。

- 這種設計允許模型在保持較低計算成本的同時,擁有更大的容量。


通過這種架構,DeepSeek-V3在保持高性能的同時,顯著降低了訓練和推理的計算成本,使得大規模語言模型的應用更加高效和實用。


1. 總參數量為671B,但每個 token 只激活37B參數

  • 這裡提到的 671B(Billion)參數 是指整個 MoE 模型的總參數規模。這意味著模型非常大,擁有許多潛在的專家網絡和能力。
  • 每個 token 只激活37B參數 的意思是,MoE架構並不會讓所有專家網絡同時運作,而是通過稀疏激活機制,只選擇最相關的一部分專家(如約37B參數)來處理輸入數據,這大幅降低了運算成本。

關鍵點:

  • 稀疏激活:MoE架構的核心特性之一,只有部分專家被激活,減少不必要的計算資源消耗。
  • 動態選擇:不同的輸入會激活不同的專家模型,因此每次處理的參數量變少,但模型仍能保持高效能。

2. MoE架構將模型分為多個"專家"子網絡,每個專家專門處理特定類型的輸入

  • 專家子網絡 是 MoE 模型的基本組件,每個專家相當於一個小的神經網絡,專注於處理特定特性的輸入數據。
  • 這種分工可以讓每個專家更專注於學習某一類型的特徵或模式,而非讓整個模型嘗試去學習所有可能的輸入。
  • 舉例:
    • 如果輸入的是自然語言數據,一些專家可能專注於處理動詞相關的特徵,而另一些專家則專注於名詞或句子結構。

關鍵點:

  • 專家的設計讓模型能以更針對性的方式處理輸入,類似於讓專家團隊各司其職來解決問題。

3. 使用"門控網絡"(gating network)來決定將輸入分配給哪些專家處理

  • 門控網絡 是 MoE 架構中的重要組件,負責決策輸入應該分配給哪些專家處理。
  • 它的工作方式類似於一個調度員:根據每個輸入數據的特性,計算出與哪些專家最匹配,並將這些輸入數據分配給對應的專家進行處理。
  • 門控網絡的輸出 通常是一個加權分佈,指示每個專家對這個輸入的相關性。

舉例:

  • 如果門控網絡接收到一句英文句子,它可能判斷這句話主要涉及動詞變化,於是激活專注於動詞處理的專家。

關鍵點:

  • 智能分配:門控網絡確保每個輸入都能被最合適的專家處理。
  • 稀疏性:門控網絡只會激活少數專家,避免了模型內部資源的浪費。

整體理解:

這段話的意思可以總結為:

  • MoE架構 通過將模型分成多個專家子網絡,讓每個專家專注於特定的任務或輸入特性。
  • 使用 門控網絡 動態選擇最合適的專家來處理每個輸入數據,避免同時激活所有專家。
  • 雖然模型的總參數規模很大(671B),但因為稀疏激活機制,每次處理只需要一小部分參數(37B),這在保持高效能的同時降低了計算成本。



總參數量 是指深度學習模型中所有可訓練參數的總數量。這些參數是模型用來學習和捕捉數據特徵的核心部分,通常是神經網絡中的權重(weights)和偏置(biases)


總參數量的意義:

  1. 模型的大小和能力
    • 總參數量越大,模型的表現力(capacity)越強,理論上能捕捉到更複雜的特徵和模式。
    • 像 GPT-4 這樣的大型模型,參數量通常達到數百億甚至數千億。
  2. 計算成本
    • 總參數量直接影響訓練和推理所需的計算資源。參數越多,計算量越大,對硬體(如 GPU 或 TPU)的需求也越高。
    • 對於大模型,如果能透過機制(如 稀疏激活)降低實際運算的參數量,會顯著減少資源消耗。
  3. 記憶體需求
    • 大量參數需要存儲在記憶體中,因此模型越大,對記憶體的需求越高。
    • 比如在訓練 671B 參數的模型時,可能需要超大規模的分布式記憶體系統來支持。


  1. MoE 的優勢在於效率
    • 儘管模型非常大(總參數量高達 671B),它的 稀疏激活(Sparse Activation) 機制只使用最相關的專家處理輸入數據,而不是讓整個模型參與計算。
    • 這大大降低了計算和記憶體開銷。
  2. 參數的大小影響性能
    • 傳統的大型模型(如全連接 Transformer 模型)需要每次激活所有參數來處理輸入數據,計算成本非常高。
    • MoE 模型的設計讓總參數量保持大規模,但實際運算的參數量小(37B),既能保留模型的強大表現力,又能顯著提升效率。

延伸:為什麼這重要?

在深度學習中,「模型的大小」和「計算效率」之間是一個關鍵的平衡點:

  • 大參數模型的好處: 更高的能力、更好的表現力,尤其在處理像自然語言生成或圖像生成這類需要高複雜度的任務時。
  • 大參數模型的挑戰: 計算和記憶體成本太高,對訓練基礎設施的要求非常苛刻。

MoE 架構正好解決了這個矛盾:

  • 透過動態選擇專家(稀疏激活),保留了高效能的同時降低了不必要的運算,讓超大規模模型(如 671B 參數)能在現實中更高效運行。






avatar-img
1會員
283內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
DA的美股日記 的其他內容
DeepSeek-R1是一款由中國杭州的DeepSeek公司於2025年1月20日發布的先進人工智能模型。以下是對DeepSeek-R1的詳細介紹: 技術特點 模型架構:採用混合專家(Mixture of Experts, MoE)架構 參數規模:總參數量為671億,每個token只激
當我們談到「激活參數」時,其實是指 深度學習模型在推理或訓練過程中,哪些參數(例如權重和偏置)會被用到來計算輸出的結果。在 MoE(混合專家)架構中,激活參數是一個核心概念,因為它的設計特性是每次只用一部分參數來完成計算,而非所有參數。 下面是詳細的流程解釋,幫助您了解「激活參數」在 MoE 架構
1. 參數使用方式 傳統大型模型(全連接 Transformer 模型): 激活全部參數: 每次處理輸入數據時,模型中的所有參數(例如權重和偏置)都會參與計算,無論輸入的特性或需求。 特點: 運算負擔大,因為無論輸入的複雜性或性質如何,模型都需要用所有的參數進行推理。 訓練和推理時需要更高
混合專家(Mixture of Experts, MoE) 是一種機器學習與深度學習的模型架構,其核心理念是將多個專家模型(Experts)結合起來,根據輸入資料的不同特性,動態選擇最適合的專家模型或模型的組合進行處理。這樣可以實現更高效、更有針對性的計算,同時減少不必要的運算負擔。
一、上游(Upstream) 主要業務: 專注於石油、天然氣的勘探(Exploration)與開發生產(Production)。 當能源價格下跌,上游公司獲利通常最直接受到衝擊,因為原油、天然氣的「銷售單價」下降。 代表公司: ConocoPhillips (COP) 以油氣勘探和生產為
一、下游業務的範圍與主要角色 下游業務(Downstream)通常包含: 煉油(Refining) 將原油精煉成各種石油產品,如汽油、柴油、煤油、燃料油、石油焦、瀝青等。 煉油廠依據所處地理位置和裝置配置,煉製不同類型的原油,並生產不同組合的成品油與副產品。 石化(Petrochemica
DeepSeek-R1是一款由中國杭州的DeepSeek公司於2025年1月20日發布的先進人工智能模型。以下是對DeepSeek-R1的詳細介紹: 技術特點 模型架構:採用混合專家(Mixture of Experts, MoE)架構 參數規模:總參數量為671億,每個token只激
當我們談到「激活參數」時,其實是指 深度學習模型在推理或訓練過程中,哪些參數(例如權重和偏置)會被用到來計算輸出的結果。在 MoE(混合專家)架構中,激活參數是一個核心概念,因為它的設計特性是每次只用一部分參數來完成計算,而非所有參數。 下面是詳細的流程解釋,幫助您了解「激活參數」在 MoE 架構
1. 參數使用方式 傳統大型模型(全連接 Transformer 模型): 激活全部參數: 每次處理輸入數據時,模型中的所有參數(例如權重和偏置)都會參與計算,無論輸入的特性或需求。 特點: 運算負擔大,因為無論輸入的複雜性或性質如何,模型都需要用所有的參數進行推理。 訓練和推理時需要更高
混合專家(Mixture of Experts, MoE) 是一種機器學習與深度學習的模型架構,其核心理念是將多個專家模型(Experts)結合起來,根據輸入資料的不同特性,動態選擇最適合的專家模型或模型的組合進行處理。這樣可以實現更高效、更有針對性的計算,同時減少不必要的運算負擔。
一、上游(Upstream) 主要業務: 專注於石油、天然氣的勘探(Exploration)與開發生產(Production)。 當能源價格下跌,上游公司獲利通常最直接受到衝擊,因為原油、天然氣的「銷售單價」下降。 代表公司: ConocoPhillips (COP) 以油氣勘探和生產為
一、下游業務的範圍與主要角色 下游業務(Downstream)通常包含: 煉油(Refining) 將原油精煉成各種石油產品,如汽油、柴油、煤油、燃料油、石油焦、瀝青等。 煉油廠依據所處地理位置和裝置配置,煉製不同類型的原油,並生產不同組合的成品油與副產品。 石化(Petrochemica
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 103 所載入的資料集,現在要來進行資料前置處理,首先載入需要的依賴: import pickle from pickle impo
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 102 說要窺探 WMT 資料集,以下著手資料集下載程式: import urllib.request # Define the
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
大語言模型通常會生產自己的「嵌入 Embedding」作為部分的輸入層, 並且在大語言模型的訓練途中不斷優化嵌入的方式, 以對特定的任務特定的數據優化。 而大語言模型使用的「嵌入維度 Embedding Dimension」通常是高維度的, 例如最小的GPT-2模型有1億1千
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 103 所載入的資料集,現在要來進行資料前置處理,首先載入需要的依賴: import pickle from pickle impo
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 102 說要窺探 WMT 資料集,以下著手資料集下載程式: import urllib.request # Define the
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
大語言模型通常會生產自己的「嵌入 Embedding」作為部分的輸入層, 並且在大語言模型的訓練途中不斷優化嵌入的方式, 以對特定的任務特定的數據優化。 而大語言模型使用的「嵌入維度 Embedding Dimension」通常是高維度的, 例如最小的GPT-2模型有1億1千
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網