positionEmbedding

#positionEmbedding含有「positionEmbedding」共 1 篇內容
全部內容
發佈日期由新至舊
讓Mistral 7B搞定長序列128K (e.g.雜誌),使用YaRN插值改良手法本篇精選熱點論文,基於ROPE(Rotary Position Embeddings)改善插值方式,讓模型可以在短序列(4K Tokens)進行訓練,接著在長序列(128K Tokens)僅做少數微調,甚至無須微調,就能達到泛化到極長輸入序列的能力,模型可以吞下一整本雜誌,輸出困惑度表現也能夠維持!
Thumbnail
2023-11-08
12