ROPE
含有「ROPE」共 2 篇內容
全部內容
發佈日期由新至舊
付費限定
無限智慧學院的沙龍
2023/11/09
生成模型是不斷的宇宙大爆炸與熱寂循環,讀YaRN悟道
相信大家要能完全理解ROPE編碼與YaRN插值手法,需要較長的時間,導致收穫感沒有這麼強。算法背後其實隱含了宇宙自然運行的道理,旋轉位置編碼,最早的形式出現在古代中國易經,繞完一整圈表示一個階段的結束,預示下一個階段的開始。
#
YaRN
#
ROPE
#
PositionalEncoding
18
留言
付費限定
無限智慧學院的沙龍
2023/11/08
讓Mistral 7B搞定長序列128K (e.g.雜誌),使用YaRN插值改良手法
本篇精選熱點論文,基於ROPE(Rotary Position Embeddings)改善插值方式,讓模型可以在短序列(4K Tokens)進行訓練,接著在長序列(128K Tokens)僅做少數微調,甚至無須微調,就能達到泛化到極長輸入序列的能力,模型可以吞下一整本雜誌,輸出困惑度表現也能夠維持!
#
positionEmbedding
#
YARN
#
論文講解
12
留言