DeepSeek是甚麼

更新於 發佈於 閱讀時間約 6 分鐘
投資理財內容聲明

DeepSeek-V3採用了高效的混合專家(Mixture of Experts, MoE)架構,這種設計大幅提高了計算效率,降低了訓練和運行成本。具體來說:


MoE架構概述


- 總參數量為671B,但每個token只激活37B參數。

- MoE架構將模型分為多個"專家"子網絡,每個專家專門處理特定類型的輸入。

- 使用"門控網絡"(gating network)來決定將輸入分配給哪些專家處理。


效率提升原理


  1. 稀疏激活

- 每次處理只激活一小部分專家,而非整個網絡。

- 這種稀疏激活大大降低了計算成本,同時保持了模型的高容量。


  1. 動態路由

- 門控網絡根據輸入特徵動態選擇最相關的專家。

- 這確保了只有最相關的部分被激活,提高了計算效率。


  1. 參數利用率提升

- 雖然總參數量很大,但實際計算只使用其中一小部分。

- 這種設計允許模型在保持較低計算成本的同時,擁有更大的容量。


通過這種架構,DeepSeek-V3在保持高性能的同時,顯著降低了訓練和推理的計算成本,使得大規模語言模型的應用更加高效和實用。


1. 總參數量為671B,但每個 token 只激活37B參數

  • 這裡提到的 671B(Billion)參數 是指整個 MoE 模型的總參數規模。這意味著模型非常大,擁有許多潛在的專家網絡和能力。
  • 每個 token 只激活37B參數 的意思是,MoE架構並不會讓所有專家網絡同時運作,而是通過稀疏激活機制,只選擇最相關的一部分專家(如約37B參數)來處理輸入數據,這大幅降低了運算成本。

關鍵點:

  • 稀疏激活:MoE架構的核心特性之一,只有部分專家被激活,減少不必要的計算資源消耗。
  • 動態選擇:不同的輸入會激活不同的專家模型,因此每次處理的參數量變少,但模型仍能保持高效能。

2. MoE架構將模型分為多個"專家"子網絡,每個專家專門處理特定類型的輸入

  • 專家子網絡 是 MoE 模型的基本組件,每個專家相當於一個小的神經網絡,專注於處理特定特性的輸入數據。
  • 這種分工可以讓每個專家更專注於學習某一類型的特徵或模式,而非讓整個模型嘗試去學習所有可能的輸入。
  • 舉例:
    • 如果輸入的是自然語言數據,一些專家可能專注於處理動詞相關的特徵,而另一些專家則專注於名詞或句子結構。

關鍵點:

  • 專家的設計讓模型能以更針對性的方式處理輸入,類似於讓專家團隊各司其職來解決問題。

3. 使用"門控網絡"(gating network)來決定將輸入分配給哪些專家處理

  • 門控網絡 是 MoE 架構中的重要組件,負責決策輸入應該分配給哪些專家處理。
  • 它的工作方式類似於一個調度員:根據每個輸入數據的特性,計算出與哪些專家最匹配,並將這些輸入數據分配給對應的專家進行處理。
  • 門控網絡的輸出 通常是一個加權分佈,指示每個專家對這個輸入的相關性。

舉例:

  • 如果門控網絡接收到一句英文句子,它可能判斷這句話主要涉及動詞變化,於是激活專注於動詞處理的專家。

關鍵點:

  • 智能分配:門控網絡確保每個輸入都能被最合適的專家處理。
  • 稀疏性:門控網絡只會激活少數專家,避免了模型內部資源的浪費。

整體理解:

這段話的意思可以總結為:

  • MoE架構 通過將模型分成多個專家子網絡,讓每個專家專注於特定的任務或輸入特性。
  • 使用 門控網絡 動態選擇最合適的專家來處理每個輸入數據,避免同時激活所有專家。
  • 雖然模型的總參數規模很大(671B),但因為稀疏激活機制,每次處理只需要一小部分參數(37B),這在保持高效能的同時降低了計算成本。



總參數量 是指深度學習模型中所有可訓練參數的總數量。這些參數是模型用來學習和捕捉數據特徵的核心部分,通常是神經網絡中的權重(weights)和偏置(biases)


總參數量的意義:

  1. 模型的大小和能力
    • 總參數量越大,模型的表現力(capacity)越強,理論上能捕捉到更複雜的特徵和模式。
    • 像 GPT-4 這樣的大型模型,參數量通常達到數百億甚至數千億。
  2. 計算成本
    • 總參數量直接影響訓練和推理所需的計算資源。參數越多,計算量越大,對硬體(如 GPU 或 TPU)的需求也越高。
    • 對於大模型,如果能透過機制(如 稀疏激活)降低實際運算的參數量,會顯著減少資源消耗。
  3. 記憶體需求
    • 大量參數需要存儲在記憶體中,因此模型越大,對記憶體的需求越高。
    • 比如在訓練 671B 參數的模型時,可能需要超大規模的分布式記憶體系統來支持。


  1. MoE 的優勢在於效率
    • 儘管模型非常大(總參數量高達 671B),它的 稀疏激活(Sparse Activation) 機制只使用最相關的專家處理輸入數據,而不是讓整個模型參與計算。
    • 這大大降低了計算和記憶體開銷。
  2. 參數的大小影響性能
    • 傳統的大型模型(如全連接 Transformer 模型)需要每次激活所有參數來處理輸入數據,計算成本非常高。
    • MoE 模型的設計讓總參數量保持大規模,但實際運算的參數量小(37B),既能保留模型的強大表現力,又能顯著提升效率。

延伸:為什麼這重要?

在深度學習中,「模型的大小」和「計算效率」之間是一個關鍵的平衡點:

  • 大參數模型的好處: 更高的能力、更好的表現力,尤其在處理像自然語言生成或圖像生成這類需要高複雜度的任務時。
  • 大參數模型的挑戰: 計算和記憶體成本太高,對訓練基礎設施的要求非常苛刻。

MoE 架構正好解決了這個矛盾:

  • 透過動態選擇專家(稀疏激活),保留了高效能的同時降低了不必要的運算,讓超大規模模型(如 671B 參數)能在現實中更高效運行。






留言
avatar-img
留言分享你的想法!
avatar-img
DA的美股日記
6會員
294內容數
DA的美股日記的其他內容
2025/04/26
✅ 什麼是「貨幣市場基金」? 貨幣市場基金是一種非常低風險的投資工具,主要投資在: 短期國庫券(T-bills) 銀行定存 短期政府或高信評企業的商業票據 它的特性是: 收益穩定但很低 隨時可以提領(高度流動性) 是現金的替代品,投資人常用來暫停觀望、停泊資金 📉 如果「大量流
2025/04/26
✅ 什麼是「貨幣市場基金」? 貨幣市場基金是一種非常低風險的投資工具,主要投資在: 短期國庫券(T-bills) 銀行定存 短期政府或高信評企業的商業票據 它的特性是: 收益穩定但很低 隨時可以提領(高度流動性) 是現金的替代品,投資人常用來暫停觀望、停泊資金 📉 如果「大量流
2025/03/29
✅ DPI 是什麼? 它是指一個人 收到的總收入 扣除 個人所得稅後,真正可以自由支配來消費或儲蓄的收入。 🔍 舉例說明: 假設你這個月收入為 $5,000 你繳了 $1,000 的所得稅 那你的 DPI 就是: 這 $4,000 就是你可以拿來: 消費(吃飯、旅遊、買衣服)
2025/03/29
✅ DPI 是什麼? 它是指一個人 收到的總收入 扣除 個人所得稅後,真正可以自由支配來消費或儲蓄的收入。 🔍 舉例說明: 假設你這個月收入為 $5,000 你繳了 $1,000 的所得稅 那你的 DPI 就是: 這 $4,000 就是你可以拿來: 消費(吃飯、旅遊、買衣服)
2025/03/29
🔹 1. PCE Price Index(個人消費支出物價指數)是「物價變化率」的指標 PCE = Personal Consumption Expenditures PCE Price Index 反映的是「你買的東西變貴了多少?」 ✅ 舉例說明: 假設你這個月花了100元買東西,跟上個
2025/03/29
🔹 1. PCE Price Index(個人消費支出物價指數)是「物價變化率」的指標 PCE = Personal Consumption Expenditures PCE Price Index 反映的是「你買的東西變貴了多少?」 ✅ 舉例說明: 假設你這個月花了100元買東西,跟上個
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
本文探討大型語言模型的發展趨勢,並以DeepSeek-V3為例,分析其在模型架構、訓練方法和效率成本上的改進。作者指出,大型語言模型的競爭焦點已轉向實際應用和數據的運用,而非模型間微小的性能差異。
Thumbnail
本文探討大型語言模型的發展趨勢,並以DeepSeek-V3為例,分析其在模型架構、訓練方法和效率成本上的改進。作者指出,大型語言模型的競爭焦點已轉向實際應用和數據的運用,而非模型間微小的性能差異。
Thumbnail
DeepSeek-V3-0324是2025年3月推出的開源AI模型,以6850億參數和MoE架構在程式設計與語言處理中表現出色。本文詳細介紹其特色(如128K上下文窗口、低成本API)、與Claude 3.7 Sonnet、GPT-4.5等模型的比較,助您了解這款改變AI格局的新星。
Thumbnail
DeepSeek-V3-0324是2025年3月推出的開源AI模型,以6850億參數和MoE架構在程式設計與語言處理中表現出色。本文詳細介紹其特色(如128K上下文窗口、低成本API)、與Claude 3.7 Sonnet、GPT-4.5等模型的比較,助您了解這款改變AI格局的新星。
Thumbnail
DeepEP透過通信協議層的創新,從系統工程角度解決大模型訓練的擴展瓶頸,其技術路徑有別於單純增加模型參數量,而是從計算本質效率切入,為LLM的實用化部署提供關鍵基礎設施支持。
Thumbnail
DeepEP透過通信協議層的創新,從系統工程角度解決大模型訓練的擴展瓶頸,其技術路徑有別於單純增加模型參數量,而是從計算本質效率切入,為LLM的實用化部署提供關鍵基礎設施支持。
Thumbnail
詳述DeepSeek與其他AI模型的比較,並探討優勢、劣勢及應用領域。 DeepSeek優勢在於中文語義理解,以及金融和法律領域的專業知識,但創意多樣性略遜於GPT-4。
Thumbnail
詳述DeepSeek與其他AI模型的比較,並探討優勢、劣勢及應用領域。 DeepSeek優勢在於中文語義理解,以及金融和法律領域的專業知識,但創意多樣性略遜於GPT-4。
Thumbnail
混合專家架構(Mixture of Experts, MoE)在DeepSeek中透過多種方式顯著提高了決策質量。 以下是該架構如何實現這一目標的幾個關鍵方面: 動態激活機制 選擇性激活 DeepSeek的MoE架構允許模型在處理查詢時,僅激活與該任務最相關的專家。 這種選
Thumbnail
混合專家架構(Mixture of Experts, MoE)在DeepSeek中透過多種方式顯著提高了決策質量。 以下是該架構如何實現這一目標的幾個關鍵方面: 動態激活機制 選擇性激活 DeepSeek的MoE架構允許模型在處理查詢時,僅激活與該任務最相關的專家。 這種選
Thumbnail
DeepSeek以557.6萬美元訓練成本,顛覆AI行業規則!從「架構瘦身」到「數據煉金」,再到「硬體巫術」,這家中國AI新星用技術與商業策略的組合拳,將成本壓縮至GPT-4的1/20。未來,AI競爭將從「算力軍備」轉向「效率革命」。
Thumbnail
DeepSeek以557.6萬美元訓練成本,顛覆AI行業規則!從「架構瘦身」到「數據煉金」,再到「硬體巫術」,這家中國AI新星用技術與商業策略的組合拳,將成本壓縮至GPT-4的1/20。未來,AI競爭將從「算力軍備」轉向「效率革命」。
Thumbnail
AI 世界正掀起一場變革!🔥 近期,DeepSeek 這家來自中國的 AI 公司,以開源策略、知識蒸餾(Distillation)、混合專家(Mixture of Experts, MoE)技術,成功挑戰 OpenAI,震撼了全球 AI 社群。這不只是技術的突破,更是一場「成長戰略」的最佳示範!
Thumbnail
AI 世界正掀起一場變革!🔥 近期,DeepSeek 這家來自中國的 AI 公司,以開源策略、知識蒸餾(Distillation)、混合專家(Mixture of Experts, MoE)技術,成功挑戰 OpenAI,震撼了全球 AI 社群。這不只是技術的突破,更是一場「成長戰略」的最佳示範!
Thumbnail
低成本AI模型 DeepSeek-R1 的出現,在矽谷和華爾街引發震盪。本文探討DeepSeek如何以混合專家架構(MoE)降低AI訓練成本,衝擊市場估值,並分析其對AI產業、算力需求、能源消耗及相關技術發展的影響,包含專用晶片產業的未來走向。文章同時反思中美AI產業的發展模式差異與優劣。
Thumbnail
低成本AI模型 DeepSeek-R1 的出現,在矽谷和華爾街引發震盪。本文探討DeepSeek如何以混合專家架構(MoE)降低AI訓練成本,衝擊市場估值,並分析其對AI產業、算力需求、能源消耗及相關技術發展的影響,包含專用晶片產業的未來走向。文章同時反思中美AI產業的發展模式差異與優劣。
Thumbnail
在這一個月內中國Ai新創公司發表 DeepSeek-V3 和 DeepSeek-R1 兩款大語言模型,其中R1模型僅花費600萬美元,並在兩個月內完成訓練;相較於美國Ai巨頭動輒上億美金的模型訓練費,打破了傳統認知「高成本高效能」,並且在成果上顯示,DeepSeek在許多方面都與當今最強的模型並列。
Thumbnail
在這一個月內中國Ai新創公司發表 DeepSeek-V3 和 DeepSeek-R1 兩款大語言模型,其中R1模型僅花費600萬美元,並在兩個月內完成訓練;相較於美國Ai巨頭動輒上億美金的模型訓練費,打破了傳統認知「高成本高效能」,並且在成果上顯示,DeepSeek在許多方面都與當今最強的模型並列。
Thumbnail
當我們談到「激活參數」時,其實是指 深度學習模型在推理或訓練過程中,哪些參數(例如權重和偏置)會被用到來計算輸出的結果。在 MoE(混合專家)架構中,激活參數是一個核心概念,因為它的設計特性是每次只用一部分參數來完成計算,而非所有參數。 下面是詳細的流程解釋,幫助您了解「激活參數」在 MoE 架構
Thumbnail
當我們談到「激活參數」時,其實是指 深度學習模型在推理或訓練過程中,哪些參數(例如權重和偏置)會被用到來計算輸出的結果。在 MoE(混合專家)架構中,激活參數是一個核心概念,因為它的設計特性是每次只用一部分參數來完成計算,而非所有參數。 下面是詳細的流程解釋,幫助您了解「激活參數」在 MoE 架構
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News