2023-11-08|閱讀時間 ‧ 約 1 分鐘

讓Mistral 7B搞定長序列128K (e.g.雜誌),使用YaRN插值改良手法

前言:

本篇精選熱點論文,基於ROPE(Rotary Position Embeddings)改善插值方式,讓模型可以在短序列(4K Tokens)進行訓練,接著在長序列(128K Tokens)僅做少數微調,甚至無須微調,就能達到泛化到極長輸入序列的能力,讓Context Window可以吞下一整本雜誌,生成困惑度足夠小的內容!

在寫這篇的同時Chatgpt4-turbo宣布能將輸入序列長度擴增到128K,應該有用到本篇所提出的方法,此方法使得LLM的效能還有應用彈性極大化,需要好好的學習一下。

論文與開源模型:

YaRN: Efficient Context Window Extension of

付費訂閱
分享至
成為作者繼續創作的動力吧!
定期分享一些新的人工智慧技術,藉由人工智慧python程式碼的實做應用探索,帶大家一起體會人工智慧理論面的奧妙,與應用面龐大的機會
© 2024 vocus All rights reserved.