傳統的大型模型(如全連接 Transformer 模型)與 MoE(混合專家)架構 的主要區別

更新於 發佈於 閱讀時間約 4 分鐘
  • 文內如有投資理財相關經驗、知識、資訊等內容,皆為創作者個人分享行為。
  • 有價證券、指數與衍生性商品之數據資料,僅供輔助說明之用,不代表創作者投資決策之推介及建議。
  • 閱讀同時,請審慎思考自身條件及自我決策,並應有為決策負責之事前認知。
  • 方格子希望您能從這些分享內容汲取投資養份,養成獨立思考的能力、判斷、行動,成就最適合您的投資理財模式。

1. 參數使用方式

傳統大型模型(全連接 Transformer 模型):

  • 激活全部參數
    每次處理輸入數據時,模型中的所有參數(例如權重和偏置)都會參與計算,無論輸入的特性或需求。
  • 特點
    • 運算負擔大,因為無論輸入的複雜性或性質如何,模型都需要用所有的參數進行推理。
    • 訓練和推理時需要更高的計算資源和記憶體。

MoE(混合專家)架構:

  • 稀疏激活(Sparse Activation)
    每次處理輸入時,模型只激活少數專家(例如 2-3 個),大部分參數並未參與計算。
  • 特點
    • 更高的計算效率,因為只需激活部分專家來處理特定的輸入。
    • 運算成本顯著降低,同時保留模型的表現力(因為總參數量仍然很大)。

2. 模型結構與專注性

傳統大型模型:

  • 全參數共享
    模型的所有層和參數都用來學習全域性(global)特徵,並處理所有輸入數據。
  • 特點
    • 通用性強,適合處理多種輸入特徵。
    • 但模型中不同部分並未針對特定類型的數據進行優化,可能在某些特定任務上效率較低。

MoE 架構:

  • 專家分工
    模型由多個專家組成,每個專家可以專注於處理某一類輸入數據(如語言模型中,某些專家專注於動詞、名詞或句子結構)。
  • 特點
    • 每個專家是針對性的,學習效率更高。
    • 能根據輸入的特徵選擇最適合的專家處理,提高輸出準確度。

3. 效率與資源消耗

傳統大型模型:

  • 高資源需求
    • 每次運算時,都需要使用所有參數,對硬體(GPU、TPU)需求非常高。
    • 訓練時間較長,推理速度較慢。
  • 例子
    • GPT-3(175B參數):每次推理時,全部參數都被使用,因此需要大量的計算資源。

MoE 架構:

  • 高效率,低資源需求
    • 雖然總參數量可能更大(例如 671B),但由於稀疏激活,每次只激活少數參數,計算資源消耗遠低於全參數模型。
    • 尤其在大規模系統(如多 GPU/TPU 集群)中,MoE 可以更靈活地分配運算資源。
  • 例子
    • Switch Transformer:總參數量高達 1.6T(兆億),但每次推理只需激活不到 1%的參數,大幅降低了運算成本。

4. 模型訓練與推理的複雜性

傳統大型模型:

  • 訓練簡單但運算昂貴
    • 訓練過程中,所有參數都參與優化,因此不需要動態分配輸入到特定的部分。
    • 推理時需要完整模型的參與,成本高昂。

MoE 架構:

  • 訓練與推理更具動態性
    • 訓練中需要設計門控網絡(Gating Network)來學習如何將輸入分配給不同的專家,增加了設計的複雜性。
    • 推理過程中,模型的運算負擔較輕,因為只需激活少數參數。

5. 應用場景

傳統大型模型:

  • 適用於中小型任務或場景相對單一的情況,因為它能快速適應多種輸入特徵,但效率可能不及 MoE。
  • 例子
    • GPT-3、BERT 等經典 Transformer 模型。

MoE 架構:

  • 適用於大規模數據處理多任務學習場景,尤其當需要處理大量不同類型的輸入時,MoE 的分工和效率優勢尤為明顯。
  • 例子
    • Switch Transformer、GLaM。
raw-image


avatar-img
1會員
289內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
DA的美股日記 的其他內容
混合專家(Mixture of Experts, MoE) 是一種機器學習與深度學習的模型架構,其核心理念是將多個專家模型(Experts)結合起來,根據輸入資料的不同特性,動態選擇最適合的專家模型或模型的組合進行處理。這樣可以實現更高效、更有針對性的計算,同時減少不必要的運算負擔。
一、上游(Upstream) 主要業務: 專注於石油、天然氣的勘探(Exploration)與開發生產(Production)。 當能源價格下跌,上游公司獲利通常最直接受到衝擊,因為原油、天然氣的「銷售單價」下降。 代表公司: ConocoPhillips (COP) 以油氣勘探和生產為
一、下游業務的範圍與主要角色 下游業務(Downstream)通常包含: 煉油(Refining) 將原油精煉成各種石油產品,如汽油、柴油、煤油、燃料油、石油焦、瀝青等。 煉油廠依據所處地理位置和裝置配置,煉製不同類型的原油,並生產不同組合的成品油與副產品。 石化(Petrochemica
一、中游業務範圍與角色 中游業務(Midstream) 通常包含以下主要環節: 運輸(Transportation):透過管道(Pipeline)、油輪(Tanker)、火車槽車、卡車等方式,將原油或天然氣從產地(上游)運送到儲存或加工地點。 儲存(Storage):興建或管理大型油罐、天然氣
一、上游業務的主要流程與獲利模式 1. 勘探(Exploration) 目標: 尋找具有商業開採價值的油氣田。 作業內容: 地質、地球物理勘測(如地震波探測) 先期評估與試鑽 成本構成: 高度資本投入:地質調查、購入或租賃探勘區塊權利金(License)、鑽井設備等 高風險:有些探勘
GB200是NVIDIA推出的最新一代AI超級晶片,具有以下特點: 架構與組成 基於NVIDIA的Blackwell架構 結合了兩個NVIDIA B200 Tensor Core GPU和一個NVIDIA Grace CPU 通過900GB/s超低功耗NVLink晶片間互連 性能與規格
混合專家(Mixture of Experts, MoE) 是一種機器學習與深度學習的模型架構,其核心理念是將多個專家模型(Experts)結合起來,根據輸入資料的不同特性,動態選擇最適合的專家模型或模型的組合進行處理。這樣可以實現更高效、更有針對性的計算,同時減少不必要的運算負擔。
一、上游(Upstream) 主要業務: 專注於石油、天然氣的勘探(Exploration)與開發生產(Production)。 當能源價格下跌,上游公司獲利通常最直接受到衝擊,因為原油、天然氣的「銷售單價」下降。 代表公司: ConocoPhillips (COP) 以油氣勘探和生產為
一、下游業務的範圍與主要角色 下游業務(Downstream)通常包含: 煉油(Refining) 將原油精煉成各種石油產品,如汽油、柴油、煤油、燃料油、石油焦、瀝青等。 煉油廠依據所處地理位置和裝置配置,煉製不同類型的原油,並生產不同組合的成品油與副產品。 石化(Petrochemica
一、中游業務範圍與角色 中游業務(Midstream) 通常包含以下主要環節: 運輸(Transportation):透過管道(Pipeline)、油輪(Tanker)、火車槽車、卡車等方式,將原油或天然氣從產地(上游)運送到儲存或加工地點。 儲存(Storage):興建或管理大型油罐、天然氣
一、上游業務的主要流程與獲利模式 1. 勘探(Exploration) 目標: 尋找具有商業開採價值的油氣田。 作業內容: 地質、地球物理勘測(如地震波探測) 先期評估與試鑽 成本構成: 高度資本投入:地質調查、購入或租賃探勘區塊權利金(License)、鑽井設備等 高風險:有些探勘
GB200是NVIDIA推出的最新一代AI超級晶片,具有以下特點: 架構與組成 基於NVIDIA的Blackwell架構 結合了兩個NVIDIA B200 Tensor Core GPU和一個NVIDIA Grace CPU 通過900GB/s超低功耗NVLink晶片間互連 性能與規格
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
模擬世界是我們寫程式造出來的,我們就是模擬世界的主宰,所以各種作用力要長什麼樣子、要怎麼個作用法,都由我們決定。不過,如果希望這些作用力看起來像真實世界的作用力一樣,那在寫程式的時候,套用這些作用力在真實世界中的物理公式,會是比較省時省力的做法。
Thumbnail
對筆者而言,這就是基於現實比小說更荒誕的情況下,會使用的轉換工具。本計算程式是基於已知當下的馬達繞線條件,包括漆包線徑及圈數後,計算出導體面積,之後在依照設計需求改換不同線徑時,可自動計算出圈數的變化;或是變動馬達設計圈數時,計算獲取新的漆包線徑值。由此可知,本工具是在固定槽滿率的條件之下,進行漆包
Thumbnail
在馬達的領域當中,大小其實是有明確區別的,也就是個別馬達公司或是工廠能製造的馬達是有大小差異的;以東元為例,一顆馬達可能比人還要龐大,若要求他們製作只有手掌大小的馬達時,會轉給子公司東元精電生產。因為大馬達所使用的生產設備及工法,甚至是師傅的標準作業程序等等都會與小馬達大相逕庭,無法通用。 這準則
Thumbnail
實際上就算直接使用專業檢試設備對馬達進行量測,仍然會受限於裝置的硬體使用範圍條件,無法完整的量測到馬達特性數據,僅有可量測範圍內的數據資料。退而求其次,針對無法直接量測的部分,可藉由數學演算的方式,將整份馬達特性曲線圖及數據表產出。 而當馬達特性是藉由演算獲得,也就代表可以簡單地透過excel就得
Thumbnail
大語言模型(如GPT-3和GPT-4)的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言,實現許多以前無法想像的應用。然而,你可能會好奇,這些模型究竟是如何理解語言的?這裡,我們來探討一個關鍵的概念:「一切語義都是關係」。
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
之前已經說過限制模型,接下來進入下一部份根據Mulder and Hamaker (2021)建議,在 RI-CLPM 中,有許多擴展模型,今天要介紹的是 Extension 1。Extension 1就是加入跨時間不變的預測或結果變項,本文將介紹此模型構造和語法。
Thumbnail
為了測試特定的假設,研究人員為了測試這些假設的可行性,可以考慮決定使用Constraints Model,其對模型對特定參數進限制。 本文將講解 Constraints Model的定義和如何在RI-CLPM運用,以及如何在Mplus執行該模型。
Thumbnail
今天我們來說一下「結構方程模式:多學科期刊」,AKA Structural Equation Modeling: A Multidisciplinary Journal。這是由 Taylor & Francis 出版的期刊,每年發行 6 期。
前幾篇文章討論了類型系統的合理性,而這會影響我們對於變數與函式是什麼的理解。其中泛型是當中很重要的一個元素,很多討論都是基於泛型的使用。泛型會大大地增加類型系統的複雜度,因此有些語言選擇不提供泛型(go),但缺少泛型又會使簡單的容器都無法用類型精確描述。泛型的強大必須結合有紀律的類型系統才能顯現,但
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
模擬世界是我們寫程式造出來的,我們就是模擬世界的主宰,所以各種作用力要長什麼樣子、要怎麼個作用法,都由我們決定。不過,如果希望這些作用力看起來像真實世界的作用力一樣,那在寫程式的時候,套用這些作用力在真實世界中的物理公式,會是比較省時省力的做法。
Thumbnail
對筆者而言,這就是基於現實比小說更荒誕的情況下,會使用的轉換工具。本計算程式是基於已知當下的馬達繞線條件,包括漆包線徑及圈數後,計算出導體面積,之後在依照設計需求改換不同線徑時,可自動計算出圈數的變化;或是變動馬達設計圈數時,計算獲取新的漆包線徑值。由此可知,本工具是在固定槽滿率的條件之下,進行漆包
Thumbnail
在馬達的領域當中,大小其實是有明確區別的,也就是個別馬達公司或是工廠能製造的馬達是有大小差異的;以東元為例,一顆馬達可能比人還要龐大,若要求他們製作只有手掌大小的馬達時,會轉給子公司東元精電生產。因為大馬達所使用的生產設備及工法,甚至是師傅的標準作業程序等等都會與小馬達大相逕庭,無法通用。 這準則
Thumbnail
實際上就算直接使用專業檢試設備對馬達進行量測,仍然會受限於裝置的硬體使用範圍條件,無法完整的量測到馬達特性數據,僅有可量測範圍內的數據資料。退而求其次,針對無法直接量測的部分,可藉由數學演算的方式,將整份馬達特性曲線圖及數據表產出。 而當馬達特性是藉由演算獲得,也就代表可以簡單地透過excel就得
Thumbnail
大語言模型(如GPT-3和GPT-4)的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言,實現許多以前無法想像的應用。然而,你可能會好奇,這些模型究竟是如何理解語言的?這裡,我們來探討一個關鍵的概念:「一切語義都是關係」。
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
之前已經說過限制模型,接下來進入下一部份根據Mulder and Hamaker (2021)建議,在 RI-CLPM 中,有許多擴展模型,今天要介紹的是 Extension 1。Extension 1就是加入跨時間不變的預測或結果變項,本文將介紹此模型構造和語法。
Thumbnail
為了測試特定的假設,研究人員為了測試這些假設的可行性,可以考慮決定使用Constraints Model,其對模型對特定參數進限制。 本文將講解 Constraints Model的定義和如何在RI-CLPM運用,以及如何在Mplus執行該模型。
Thumbnail
今天我們來說一下「結構方程模式:多學科期刊」,AKA Structural Equation Modeling: A Multidisciplinary Journal。這是由 Taylor & Francis 出版的期刊,每年發行 6 期。
前幾篇文章討論了類型系統的合理性,而這會影響我們對於變數與函式是什麼的理解。其中泛型是當中很重要的一個元素,很多討論都是基於泛型的使用。泛型會大大地增加類型系統的複雜度,因此有些語言選擇不提供泛型(go),但缺少泛型又會使簡單的容器都無法用類型精確描述。泛型的強大必須結合有紀律的類型系統才能顯現,但