付費限定

8個專家小模型勝過ChatGPT3，SMoE論文導讀 for Mixtral-8x7B

無限智慧學院

發佈於人工智慧宇宙

更新於 2023/12/27發佈於 2023/12/26閱讀時間約 7 分鐘

知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B，能用較小的運算資源與參數量，打敗ChatGPT3的考試成績。本文藉由兩篇SMoE論文的導讀，抽取其中的核心概念，試圖打開這項技術的神秘面紗。

SMOE研究動機:

Transformer模型距離"完美"還有一段距離，而這段距離目前看起來最有可能用 SMoE (Sparse Mixture-of-Experts) 稀疏混和專家技術來進行彌補，SMoE改良方法基於以下痛點進行改良，每一項都戳到Transformer的死穴。

Transformer模型訓練非常容易Over-fitting，訓練資料集需要高度的"質/量"
Transformer模型參數訓練後會有過多的冗餘重複的部分，無法充分利用
Transformer MLP部分有大量的參數需要調整，訓練計算複雜度巨大
Transformer 訓練與推論耗費大量的記憶體資源

Transformer大模型，參數自由度很高，矩陣Rank數目很高，訓練時會產生參數具有大量的冗餘，容易造成模型理解崩潰的結果(Over-fitting) 。現在的解法就是利用大量且多樣性高的訓練資料集來訓練，多數大語言模型看過的文本數量遠遠超過人類一生的閱讀量，需要上千個GPU小時，才有辦法完成Pretrained model的訓練，結果令人豔，成果"非常有效"但十分"沒有效率"。

SMOE核心理念:

降低Transformer 裡面MLP的維度 / Rank 數 / 與參數量，用多個MLP多層感知層 + 路由層，來組成和原本參數一樣多的大模型。顯而易見的好處是可以藉由路由層的開關來控制學習任務所需要的參數量，達成高度具有自我調整性(self-slimmable)模型。

配合SMoE獨特的訓練方法，如SMoE-Dropout降低模型理解崩潰的可能性，推論時也有路由可以僅使用前K個最高關聯的專家產生結果，可大幅降低計算量。

甚至可統計每個專家參數被路由選到的頻率，將被使用頻率較少的參數與頻率較高的參數進行參數壓縮，獲得參數量更低，運算複雜度更低的SoTA (State-of-the-art)模型。

SMOE論文手法:

以下統整最近兩篇關於SMOE的論文手法:

以行動支持創作者！付費即可解鎖

本篇內容共 3109 字、0 則留言，僅發佈於人工智慧宇宙你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

#MixtureOfExperts

#AI論文詳解

#改良大型語言模型

無限智慧學院的沙龍人工智慧宇宙AI論文詳解

無限智慧學院的沙龍

95會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

留言

留言分享你的想法！

你可能也想看

Google News 追蹤

方格子 vocus 官方沙龍

【vocus 新商品上架】創作者打氣包🚨 4 月限定，免費數位商品

靈感用盡、鍵盤不再響，盯著喜歡、分享、留言的數字，心跳跟著小鈴鐺七上八下⋯⋯vocus 2025 年 4 月限定新商品，要為創作者打氣！ 🚨「創作者打氣包」最懂創作者的vocus，為創作者打造 ✨ 打氣包，包什麼？！四件道具挺創作者一、【打氣復活卷】專屬你的打氣小語，成功登記免費

#創作 #主辦單位 #作者

方格子 vocus 官方沙龍

「方格人氣王」挑戰賽🏆！發文互動拿禮物，登上首頁曝光！

全新 vocus 挑戰活動「方格人氣王」來啦～四大挑戰任你選，留言 / 愛心 / 瀏覽數大 PK，還有新手專屬挑戰！無論你是 vocus 上活躍創作者或剛加入的新手，都有機會被更多人看見，獲得站上版位曝光＆豐富獎勵！🏆

#方格人氣王 #方格留言王 #方格愛心王

方格子 vocus 官方沙龍

【vocus 新商品上架】創作者打氣包🚨 4 月限定，免費數位商品

靈感用盡、鍵盤不再響，盯著喜歡、分享、留言的數字，心跳跟著小鈴鐺七上八下⋯⋯vocus 2025 年 4 月限定新商品，要為創作者打氣！ 🚨「創作者打氣包」最懂創作者的vocus，為創作者打造 ✨ 打氣包，包什麼？！四件道具挺創作者一、【打氣復活卷】專屬你的打氣小語，成功登記免費

#創作 #主辦單位 #作者

方格子 vocus 官方沙龍

「方格人氣王」挑戰賽🏆！發文互動拿禮物，登上首頁曝光！

全新 vocus 挑戰活動「方格人氣王」來啦～四大挑戰任你選，留言 / 愛心 / 瀏覽數大 PK，還有新手專屬挑戰！無論你是 vocus 上活躍創作者或剛加入的新手，都有機會被更多人看見，獲得站上版位曝光＆豐富獎勵！🏆

#方格人氣王 #方格留言王 #方格愛心王