需時間驗證的Transformer挑戰者,Mamba (Albert Gu & Tri Dao)

閱讀時間約 6 分鐘

本篇文章為大家導讀近日火熱的Mamba Paper,新聞標題說它是Transformer的繼任者,是否真是如此? 讓我們一起一探究竟,本文著重介紹論文前半部分。


開發動機:

Transformer架構十分有效但是效率不高,尤其是當輸入Context 長度M增加,計算複雜度會呈現M平方增長。這激發了眾人的興趣,尋求新的架構來改善這個痛點。最常見的方式莫屬SSMs (State Space Model),用Recurrence (RNN) 或是 Global Convolution (CNN) 的方式來降低計算複雜度。在Mamba之前的論文,SSMs無法在小型測試取得能與Transformer匹敵的結

以行動支持創作者!付費即可解鎖
本篇內容共 2656 字、0 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
90會員
126內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
發表第一個留言支持創作者!