需時間驗證的Transformer挑戰者，Mamba (Albert Gu & Tri Dao)

無限智慧學院的沙龍

95會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

留言

留言分享你的想法！

無限智慧學院的沙龍的其他內容

奢華與平價教材一起拿來學，C-RLFT，Openchat's tricks for finetune

Starling-LM-7B近來火燙，有使用到本篇的C-RLFT技術，基於此基礎上可以把7B小模型的微調成績做到頂尖，一起來理解OpenChat 的 C-RLFT技術是如何實現的，所能產生的效果為何，以及探索為何能達到這樣好的成績。

#AI論文詳解 #CRLFT #ConditionedRL

訓練小模型進行逐步推導，Orca-2-7B/13B

微軟爸爸發論文教大家如何訓練與評估model，有完整的訓練思路與評估方法，雖然本篇沒有任何Fine-tune的手法，比較不接地氣，但是仍然可以當成一個好的參考範例，可以從中學到許多評估模型的角度與關鍵指標，改天會進行總結整理。

#Orca2 #逐步推導 #LLM小模型研究

即時生圖應用大行其道，LCM手法理解與未來應用

北京清華大學改進了傳統Stable Diffusion (SD) 文生圖的加速算法，讓SD這項技術，可以在筆電達到即時(Real Time)運算等級，讓我們一起來了解這項技術，期許未來能在各種應用上使用，或是看到源碼也不陌生。

#LCM #北京清華大學 #文字生圖片

生成模型是不斷的宇宙大爆炸與熱寂循環，讀YaRN悟道

相信大家要能完全理解ROPE編碼與YaRN插值手法，需要較長的時間，導致收穫感沒有這麼強。算法背後其實隱含了宇宙自然運行的道理，旋轉位置編碼，最早的形式出現在古代中國易經，繞完一整圈表示一個階段的結束，預示下一個階段的開始。

#YaRN #ROPE #PositionalEncoding

讓Mistral 7B搞定長序列128K (e.g.雜誌)，使用YaRN插值改良手法

本篇精選熱點論文，基於ROPE(Rotary Position Embeddings)改善插值方式，讓模型可以在短序列(4K Tokens)進行訓練，接著在長序列(128K Tokens)僅做少數微調，甚至無須微調，就能達到泛化到極長輸入序列的能力，模型可以吞下一整本雜誌，輸出困惑度表現也能夠維持!

#positionEmbedding #YARN #論文講解

發揮以小搏大的精神，直接蒸餾法訓練Mistral 7B

為了使小模型取得大模型的回答水平這篇論文提出了三招，"大幅度"提升Mistral 7B模型的回答準確率如果有想要把LLM微調好的人，一定不能錯過這篇

#科技力 #Mistral #GPT-4