1. 參數使用方式傳統大型模型(全連接 Transformer 模型):激活全部參數:每次處理輸入數據時,模型中的所有參數(例如權重和偏置)都會參與計算,無論輸入的特性或需求。特點:運算負擔大,因為無論輸入的複雜性或性質如何,模型都需要用所有的參數進行推理。訓練和推理時需要更高的計算資源和記憶體。MoE(混合專家)架構:稀疏激活(Sparse Activation):每次處理輸入時,模型只激活少數專家(例如 2-3 個),大部分參數並未參與計算。特點:更高的計算效率,因為只需激活部分專家來處理特定的輸入。運算成本顯著降低,同時保留模型的表現力(因為總參數量仍然很大)。2. 模型結構與專注性傳統大型模型:全參數共享:模型的所有層和參數都用來學習全域性(global)特徵,並處理所有輸入數據。特點:通用性強,適合處理多種輸入特徵。但模型中不同部分並未針對特定類型的數據進行優化,可能在某些特定任務上效率較低。MoE 架構:專家分工:模型由多個專家組成,每個專家可以專注於處理某一類輸入數據(如語言模型中,某些專家專注於動詞、名詞或句子結構)。特點:每個專家是針對性的,學習效率更高。能根據輸入的特徵選擇最適合的專家處理,提高輸出準確度。3. 效率與資源消耗傳統大型模型:高資源需求:每次運算時,都需要使用所有參數,對硬體(GPU、TPU)需求非常高。訓練時間較長,推理速度較慢。例子:GPT-3(175B參數):每次推理時,全部參數都被使用,因此需要大量的計算資源。MoE 架構:高效率,低資源需求:雖然總參數量可能更大(例如 671B),但由於稀疏激活,每次只激活少數參數,計算資源消耗遠低於全參數模型。尤其在大規模系統(如多 GPU/TPU 集群)中,MoE 可以更靈活地分配運算資源。例子:Switch Transformer:總參數量高達 1.6T(兆億),但每次推理只需激活不到 1%的參數,大幅降低了運算成本。4. 模型訓練與推理的複雜性傳統大型模型:訓練簡單但運算昂貴:訓練過程中,所有參數都參與優化,因此不需要動態分配輸入到特定的部分。推理時需要完整模型的參與,成本高昂。MoE 架構:訓練與推理更具動態性:訓練中需要設計門控網絡(Gating Network)來學習如何將輸入分配給不同的專家,增加了設計的複雜性。推理過程中,模型的運算負擔較輕,因為只需激活少數參數。5. 應用場景傳統大型模型:適用於中小型任務或場景相對單一的情況,因為它能快速適應多種輸入特徵,但效率可能不及 MoE。例子:GPT-3、BERT 等經典 Transformer 模型。MoE 架構:適用於大規模數據處理或多任務學習場景,尤其當需要處理大量不同類型的輸入時,MoE 的分工和效率優勢尤為明顯。例子:Switch Transformer、GLaM。