2023-12-12|閱讀時間 ‧ 約 1 分鐘

需時間驗證的Transformer挑戰者,Mamba (Albert Gu & Tri Dao)

本篇文章為大家導讀近日火熱的Mamba Paper,新聞標題說它是Transformer的繼任者,是否真是如此? 讓我們一起一探究竟,本文著重介紹論文前半部分。


開發動機:

Transformer架構十分有效但是效率不高,尤其是當輸入Context 長度M增加,計算複雜度會呈現M平方增長。這激發了眾人的興趣,尋求新的架構來改善這個痛點。最常見的方式莫屬SSMs (State Space Model),用Recurrence (RNN) 或是 Global Convolution (CNN) 的方式來降低計算複雜度。在Mamba之前的論文,SSMs無法在小型測試取得能與Transformer匹敵的結

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.