付費限定

8個專家小模型勝過ChatGPT3,SMoE論文導讀 for Mixtral-8x7B

閱讀時間約 7 分鐘

知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B,能用較小的運算資源與參數量,打敗ChatGPT3的考試成績。本文藉由兩篇SMoE論文的導讀,抽取其中的核心概念,試圖打開這項技術的神秘面紗。


SMOE研究動機:

Transformer模型距離"完美"還有一段距離,而這段距離目前看起來最有可能用 SMoE (Sparse Mixture-of-Experts) 稀疏混和專家技術來進行彌補,SMoE改良方法基於以下痛點進行改良,每一項都戳到Transformer的死穴。

  1. Transformer模型訓練非常容易Over-fitting,訓練資料集需要高度的"質/量"
  2. Transformer模型參數訓練後會有過多的冗餘重複的部分,無法充分利用
  3. Transformer MLP部分有大量的參數需要調整,訓練計算複雜度巨大
  4. Transformer 訓練與推論耗費大量的記憶體資源

Transformer大模型,參數自由度很高,矩陣Rank數目很高,訓練時會產生參數具有大量的冗餘,容易造成模型理解崩潰的結果(Over-fitting) 。現在的解法就是利用大量且多樣性高的訓練資料集來訓練,多數大語言模型看過的文本數量遠遠超過人類一生的閱讀量,需要上千個GPU小時,才有辦法完成Pretrained model的訓練,結果令人豔,成果"非常有效"但十分"沒有效率"。


SMOE核心理念:

降低Transformer 裡面MLP的維度 / Rank 數 / 與參數量,用多個MLP多層感知層 + 路由層,來組成和原本參數一樣多的大模型。顯而易見的好處是可以藉由路由層的開關來控制學習任務所需要的參數量,達成高度具有自我調整性(self-slimmable)模型。

配合SMoE獨特的訓練方法,如SMoE-Dropout降低模型理解崩潰的可能性,推論時也有路由可以僅使用前K個最高關聯的專家產生結果,可大幅降低計算量。

甚至可統計每個專家參數被路由選到的頻率,將被使用頻率較少的參數與頻率較高的參數進行參數壓縮,獲得參數量更低,運算複雜度更低的SoTA (State-of-the-art)模型。


SMOE論文手法:

以下統整最近兩篇關於SMOE的論文手法:

以行動支持創作者!付費即可解鎖
本篇內容共 3109 字、0 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
96會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...