MoE模型 - 參數達1 兆，推理成本低

JH Young

發佈於滴咕雞

2026/03/08 更新2026/03/08 發佈閱讀 7 分鐘

這是很多最新大模型的核心技術，用直觀 + 技術結構解釋目前很多大型模型使用的架構：Mixture of Experts（MoE）。這種架構讓模型可以做到超大參數量，但推理成本卻沒有等比例增加。

一、什麼是 Mixture of Experts（MoE）

MoE 的概念是：

不是每個神經網路都參與計算，而是只啟動少數「專家」。

概念圖：

</>Plain text
輸入問題
   │
   ▼
Gate Router（路由器）
   │
   ├── Expert 1
   ├── Expert 2
   ├── Expert 3
   ├── Expert 4
   └── Expert N

Router 只選 幾個最適合的 expert。

例如：

</>Plain text
只啟動 Expert 3 和 Expert 7

二、為何 MoE 能做到超大模型

假設一個模型：

</>Plain text
64 個 experts每個 10B 參數

總參數：

</>Plain text
640B

但推理時：

</>Plain text
只用 2 個 expert

計算量：

</>Plain text
20B

因此：

這就是 MoE 的魔法。

三、MoE 的核心元件

1️⃣ Router（Gate）

Router 是一個小神經網路：

</>Plain text
input → linear layer → softmax

輸出：

</>Plain text
每個 expert 的權重

例如：

</>Plain text
Expert1: 0.01Expert2: 0.02Expert3: 0.60Expert4: 0.30

只選 top-k：

</>Plain text
Expert3 + Expert4

2️⃣ Experts

Experts 本質是：

</>Plain text
Feed Forward Network (FFN)

Transformer block：

</>Plain text
Attention   │   ▼MoE layer

取代原本的：

</>Plain text
Dense FFN

四、MoE Transformer 結構

普通 Transformer：

</>Plain text
Attention   │Dense FFN

MoE Transformer：

</>Plain text
Attention   │Router   │Experts (多個)

這樣每層都可以有很多 experts。

五、為何 MoE 表現很好

原因有三個：

1️⃣ 專家分工

不同 expert 會專精不同領域：

例如：

</>Plain text
Expert 5 → 數學Expert 12 → 程式Expert 21 → 歷史

2️⃣ 容量巨大

總參數可以非常大。

例如：

</>Plain text
1T parameters

3️⃣ 計算成本低

因為只啟動少數 experts。

六、MoE 的實際模型

一些知名模型使用 MoE：

例如 Mixtral：

</>Plain text
8 experts每 token 啟動 2 個

七、MoE 的缺點

MoE 也有問題。

1️⃣ Load imbalance

可能某些 experts 被過度使用：

</>Plain text
Expert3 → 80% tokens

其他 expert 閒置。

所以訓練時要加：

</>Plain text
load balancing loss

2️⃣ 分散式訓練困難

Experts 通常分布在不同 GPU：

</>Plain text
GPU1 → Expert1GPU2 → Expert2GPU3 → Expert3

需要高速網路。

3️⃣ latency

token 需要路由到不同 GPU。

八、MoE 的計算流程

一個 token：

</>Plain text
Token embedding
      │
      ▼
Attention
      │
      ▼
Router
      │
      ├── Expert A
      └── Expert B
      │
      ▼
Combine
      │
      ▼
下一層

九、為何 MoE 越來越流行

原因：

Dense 模型 scaling 越來越貴。

例如：

</>Plain text
70B → 175B → 1T

成本爆炸。

MoE 可以：

</>Plain text
計算成本 ≈ 小模型能力 ≈ 大模型

十、未來 AI 架構

現在很多研究方向：

</>Plain text
MoE + RAGMoE + Tool useMoE + Agents

甚至：

</>Plain text
Hierarchical MoE

多層專家系統。

十一、為什麼 MoE 對個人開發者重要

因為：

未來開源模型很可能都是 MoE。

例如：

30B dense
8x7B MoE

性能可能相近。

十二、簡單理解 MoE

可以把 MoE 想像成：

</>Plain text
一家大型醫院

病人來了：

</>Plain text
先掛號

系統判斷：

</>Plain text
心臟科骨科神經科

只找 對的醫生。

這就是 Mixture of Experts。

✅ 總結

MoE 的核心：

</>Plain text
很多專家但每次只用少數

所以：

</>Plain text
模型巨大成本可控

留言

sirius數字沙龍

11會員

250內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/07

「RAG + 微調」混合架構 - AI 公司最常用的 dataset 技術

現在 AI 公司最常用的 dataset 技術：「RAG + 微調」混合架構它能讓小模型能力提升 5～20 倍。目前 AI 系統非常主流的一種架構：RAG + 微調（Fine-tuning）混合架構。很多公司都使用這種方法來打造專業 AI 助手，因為它能讓模型既有知識又能查最新資料。

2026/03/07

「RAG + 微調」混合架構 - AI 公司最常用的 dataset 技術

2026/03/06

如何用 AI 自動生成 10 萬筆訓練資料（Self-Instruct Dataset）

一步一步示範 Self-Instruct（自動生成訓練資料）的方法。這是很多模型（如 OpenAI、Stanford University 研究團隊）提出並實際使用的技巧，可以用一個強模型自動生成大量資料，然後用來微調另一個模型。

2026/03/06

如何用 AI 自動生成 10 萬筆訓練資料（Self-Instruct Dataset）

2026/03/06

用一張 RTX 4090 就能跑的完整 LLM 微調專案架構

這是很多人自己做「私人 AI 助手 / 領域模型」的典型做法。整體分成：模型選擇 → 資料 → 訓練 → 推論部署。一、硬體條件（RTX 4090） RTX 4090 VRAM：24GB FP16 算力：約 82 TFLOPS 適合：LoRA / QLoRA 微調能訓練模型大小：

2026/03/06

用一張 RTX 4090 就能跑的完整 LLM 微調專案架構

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14