128K
含有「128K」共 1 篇內容
全部內容
發佈日期由新至舊
付費限定
無限智慧學院的沙龍
2023/11/08
讓Mistral 7B搞定長序列128K (e.g.雜誌),使用YaRN插值改良手法
本篇精選熱點論文,基於ROPE(Rotary Position Embeddings)改善插值方式,讓模型可以在短序列(4K Tokens)進行訓練,接著在長序列(128K Tokens)僅做少數微調,甚至無須微調,就能達到泛化到極長輸入序列的能力,模型可以吞下一整本雜誌,輸出困惑度表現也能夠維持!
#
positionEmbedding
#
YARN
#
論文講解
12
留言