MoE模型 - 參數達1 兆,推理成本低

更新 發佈閱讀 7 分鐘

這是很多最新大模型的核心技術,用直觀 + 技術結構解釋目前很多大型模型使用的架構:Mixture of Experts(MoE)。這種架構讓模型可以做到超大參數量,但推理成本卻沒有等比例增加


一、什麼是 Mixture of Experts(MoE)

MoE 的概念是:

不是每個神經網路都參與計算,而是只啟動少數「專家」。

概念圖:

</>Plain text
輸入問題


Gate Router(路由器)

├── Expert 1
├── Expert 2
├── Expert 3
├── Expert 4
└── Expert N

Router 只選 幾個最適合的 expert

例如:

</>Plain text
只啟動 Expert 3 和 Expert 7

二、為何 MoE 能做到超大模型

假設一個模型:

</>Plain text
64 個 experts每個 10B 參數

總參數:

</>Plain text
640B

但推理時:

</>Plain text
只用 2 個 expert

計算量:

</>Plain text
20B

因此:

raw-image

這就是 MoE 的魔法。


三、MoE 的核心元件

1️⃣ Router(Gate)

Router 是一個小神經網路:

</>Plain text
input → linear layer → softmax

輸出:

</>Plain text
每個 expert 的權重

例如:

</>Plain text
Expert1: 0.01Expert2: 0.02Expert3: 0.60Expert4: 0.30

只選 top-k

</>Plain text
Expert3 + Expert4

2️⃣ Experts

Experts 本質是:

</>Plain text
Feed Forward Network (FFN)

Transformer block:

</>Plain text
Attention │ ▼MoE layer

取代原本的:

</>Plain text
Dense FFN

四、MoE Transformer 結構

普通 Transformer:

</>Plain text
Attention │Dense FFN

MoE Transformer:

</>Plain text
Attention │Router │Experts (多個)

這樣每層都可以有很多 experts。


五、為何 MoE 表現很好

原因有三個:

1️⃣ 專家分工

不同 expert 會專精不同領域:

例如:

</>Plain text
Expert 5 → 數學Expert 12 → 程式Expert 21 → 歷史

2️⃣ 容量巨大

總參數可以非常大。

例如:

</>Plain text
1T parameters

3️⃣ 計算成本低

因為只啟動少數 experts。


六、MoE 的實際模型

一些知名模型使用 MoE:

raw-image

例如 Mixtral:

</>Plain text
8 experts每 token 啟動 2

七、MoE 的缺點

MoE 也有問題。

1️⃣ Load imbalance

可能某些 experts 被過度使用:

</>Plain text
Expert3 → 80% tokens

其他 expert 閒置。

所以訓練時要加:

</>Plain text
load balancing loss

2️⃣ 分散式訓練困難

Experts 通常分布在不同 GPU:

</>Plain text
GPU1 → Expert1GPU2 → Expert2GPU3 → Expert3

需要高速網路。


3️⃣ latency

token 需要路由到不同 GPU。


八、MoE 的計算流程

一個 token:

</>Plain text
Token embedding


Attention


Router

├── Expert A
└── Expert B


Combine


下一層

九、為何 MoE 越來越流行

原因:

Dense 模型 scaling 越來越貴。

例如:

</>Plain text
70B → 175B → 1T

成本爆炸。

MoE 可以:

</>Plain text
計算成本 ≈ 小模型能力 ≈ 大模型

十、未來 AI 架構

現在很多研究方向:

</>Plain text
MoE + RAGMoE + Tool useMoE + Agents

甚至:

</>Plain text
Hierarchical MoE

多層專家系統。


十一、為什麼 MoE 對個人開發者重要

因為:

未來開源模型很可能都是 MoE。

例如:

  • 30B dense
  • 8x7B MoE

性能可能相近。


十二、簡單理解 MoE

可以把 MoE 想像成:

</>Plain text
一家大型醫院

病人來了:

</>Plain text
先掛號

系統判斷:

</>Plain text
心臟科骨科神經科

只找 對的醫生

這就是 Mixture of Experts


總結

MoE 的核心:

</>Plain text
很多專家但每次只用少數

所以:

</>Plain text
模型巨大成本可控




留言
avatar-img
sirius數字沙龍
11會員
250內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/07
現在 AI 公司最常用的 dataset 技術: 「RAG + 微調」混合架構 它能讓小模型能力 提升 5~20 倍。 目前 AI 系統非常主流的一種架構:RAG + 微調(Fine-tuning)混合架構。很多公司都使用這種方法來打造專業 AI 助手,因為它能讓模型既有知識又能查最新資料。
Thumbnail
2026/03/07
現在 AI 公司最常用的 dataset 技術: 「RAG + 微調」混合架構 它能讓小模型能力 提升 5~20 倍。 目前 AI 系統非常主流的一種架構:RAG + 微調(Fine-tuning)混合架構。很多公司都使用這種方法來打造專業 AI 助手,因為它能讓模型既有知識又能查最新資料。
Thumbnail
2026/03/06
一步一步示範 Self-Instruct(自動生成訓練資料)的方法。 這是很多模型(如 OpenAI、Stanford University 研究團隊)提出並實際使用的技巧,可以用一個強模型自動生成大量資料,然後用來微調另一個模型。
Thumbnail
2026/03/06
一步一步示範 Self-Instruct(自動生成訓練資料)的方法。 這是很多模型(如 OpenAI、Stanford University 研究團隊)提出並實際使用的技巧,可以用一個強模型自動生成大量資料,然後用來微調另一個模型。
Thumbnail
2026/03/06
這是很多人自己做「私人 AI 助手 / 領域模型」的典型做法。整體分成:模型選擇 → 資料 → 訓練 → 推論部署。 一、硬體條件(RTX 4090) RTX 4090 VRAM:24GB FP16 算力:約 82 TFLOPS 適合:LoRA / QLoRA 微調 能訓練模型大小:
Thumbnail
2026/03/06
這是很多人自己做「私人 AI 助手 / 領域模型」的典型做法。整體分成:模型選擇 → 資料 → 訓練 → 推論部署。 一、硬體條件(RTX 4090) RTX 4090 VRAM:24GB FP16 算力:約 82 TFLOPS 適合:LoRA / QLoRA 微調 能訓練模型大小:
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
如果熟悉公報(如450號、501號、3000號)和基本概念,這題難度對有經驗或教材複習過的人算「中等偏易」關鍵在於條列清楚、分類明確、說明合理判斷即可。
Thumbnail
如果熟悉公報(如450號、501號、3000號)和基本概念,這題難度對有經驗或教材複習過的人算「中等偏易」關鍵在於條列清楚、分類明確、說明合理判斷即可。
Thumbnail
實施教育訓練當年度,這家通路的銷售額翻增300%,幫助法蘭克成為年度銷售冠軍。
Thumbnail
實施教育訓練當年度,這家通路的銷售額翻增300%,幫助法蘭克成為年度銷售冠軍。
Thumbnail
這篇文章是政大EMBA財務管理課程心得,以Guna Fibres案例闡述現金流的重要性,並探討資金成本、利率、舉債風險及全球利率聯動對企業和個人的影響。文章重點整理三大學習主軸:現金流、資金成本及全球市場變動,並提出反思與問題,鼓勵讀者思考個人財務管理及投資決策。
Thumbnail
這篇文章是政大EMBA財務管理課程心得,以Guna Fibres案例闡述現金流的重要性,並探討資金成本、利率、舉債風險及全球利率聯動對企業和個人的影響。文章重點整理三大學習主軸:現金流、資金成本及全球市場變動,並提出反思與問題,鼓勵讀者思考個人財務管理及投資決策。
Thumbnail
這週就要公布國內最新電價,傳出台電的提案是整體平均漲6%,產業電價不超過5%、民生用電比10%低。台電表示會照實將成本提交給電價審議會。
Thumbnail
這週就要公布國內最新電價,傳出台電的提案是整體平均漲6%,產業電價不超過5%、民生用電比10%低。台電表示會照實將成本提交給電價審議會。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News