在日常生活中,你是否遇過這樣的情況:當你把一份長達數百頁的財務報表或是厚厚一疊的產品規格書上傳給大型語言模型,希望它幫你統整重點時,AI 思考的時間會突然變得非常漫長?這背後的原因,在於當前 AI 產業界對於「處理長文本」的主流解法,往往是單純地擴大「上下文窗口(Context Window)」。
雖然現在的模型宣稱可以一次吞下十萬甚至上百萬個 Token,就像是給了 AI 一張無比巨大的辦公桌,讓它可以把所有參考書全部攤開來在桌上看。但問題是,桌子越大,AI 在回答每一個問題時,目光都需要在這些書本之間來回掃視、重新計算關聯性。這在技術上被稱為「鍵值快取(KV Cache)」的記憶體消耗與注意力機制的龐大運算量。結果就是,AI 回答的速度會隨著文本長度急遽下降,且運算成本高得嚇人。
面對這個困境,如果我們不想讓 AI 每次都重新翻書,還有什麼辦法?知名人工智慧新創公司 Sakana AI 近期發表了兩項極具巧思的技術:Text-to-LoRA (T2L) 與 Doc-to-LoRA (D2L)。這兩項技術放棄了把桌子變大的傳統思維,轉而採用了一種極具科幻感的作法:為 AI 打造「記憶吐司」與「技能插卡」。透過一個極度輕量化的超網路(Hypernetwork),系統可以在不到一秒鐘的時間內,把一段長篇文件或一個複雜的任務指令,瞬間轉換為一組模型權重(LoRA),等於是直接把知識「刻進」AI 的大腦神經元裡。
Text-to-LoRA: Instant Transformer Adaption
Doc-to-LoRA: Learning to Instantly Internalize Contexts
這兩篇論文解決了什麼大問題?
要真正理解 Sakana AI 這次發表的技術價值,我們必須先釐清現有的大型語言模型在學習新知識時,究竟遇到了哪些根本性的阻礙。我們可以用「考試準備」來做一個生活化的類比。
傳統上下文學習的極限:永遠在死記硬背的學生
我們目前最常使用的提示詞工程(Prompting)或上下文學習(In-Context Learning),就像是讓一個學生在考場上「open-book 考試」。你把所有需要的資料全部塞給他,讓他看著資料回答問題。
在 Transformer 的底層架構中,模型為了理解一句話中每個字詞之間的關係,必須把所有讀過的歷史資訊暫存在記憶體中,這就是 KV Cache。當這本書只有十頁時,學生找答案很快;但當這本書變成一萬頁時,學生的短期記憶(記憶體)會瞬間爆滿。更糟糕的是,注意力機制的計算複雜度是隨著長度呈二次方成長的,這意味著每多讀一個字,學生腦袋裡需要核對的資訊量會呈指數級暴增。這導致了伺服器在處理長文本時,首字延遲(Time to First Token)會非常嚴重,成本也極度高昂。
傳統模型微調與上下文蒸餾的高昂代價:去深山閉關修練
如果不想開書考,另一種方法就是讓學生「把書背起來,內化成自己的實力」。在 AI 領域,這通常意味著更改模型的內部參數。
最常見的方法是監督式微調(SFT),這就像是送學生去補習班進行為期幾個月的密集特訓。你需要準備大量且精準的考古題(問答資料集),然後花費昂貴的 GPU 算力進行長時間的訓練。這對於需要頻繁更新知識的應用場景來說,顯然緩慢且不切實際。
近年來,學界提出了另一種稱為「上下文蒸餾(Context Distillation, CD)」的方法。你可以把它想像成一種「自我催眠學習法」。我們讓一個「有帶著小抄(上下文)」的 AI 教師先回答問題,然後逼迫另一個「沒有小抄」的 AI 學生透過修改自己的大腦參數,去模仿教師的答案。雖然這可以成功把外部知識寫入大腦,但每一次的蒸餾過程,學生都需要反覆練習(反向傳播更新權重)成百上千次。為了讀懂一份文件,可能要花上幾十分鐘甚至幾個小時來調整參數。對於需要即時互動的真實世界應用來說,這仍然太慢了。
Sakana AI 看到的痛點就在這裡:我們需要一種既不需要「龐大的桌子(KV Cache)」,又不需要「漫長閉關修練(反向傳播)」的方法。
替 AI 打造「技能下載器」與「記憶吐司」
為了解決這個看似無解的矛盾,Sakana AI 引入了一個關鍵的技術:超網路(Hypernetwork)。
什麼是超網路?你可以把它想像成一台「專門印製 AI 大腦晶片的 3D 印表機」。這台印表機本身也是一個神經網路,但它的輸出不是文字或圖片,而是另一組神經網路的權重(Weight)。Sakana AI 訓練這台印表機的目標只有一個:只要你餵給它一段文字,它就能瞬間印出一塊 LoRA(低秩適應器)輕量級參數晶片。
Text-to-LoRA (T2L):電影《駭客任務》中的技能下載器
Text-to-LoRA 專注於解決「任務切換」的問題。想像我們希望 AI 扮演一個嚴謹的律師,下一秒又希望它變成一個創意十足的童書作家。過去,我們需要在提示詞裡寫下長篇大論的角色設定。
T2L 的運作方式,就像是電影《駭客任務》中主角只要往大腦插入資料,就能瞬間學會駕駛直升機一樣。
- 讀取任務需求:系統接收到自然語言的任務描述,例如「請用邏輯嚴密的程式碼思維來解答數學題」。這段文字會先被一個小型的語言模型轉化為一串代表語意向量的數字(就像是把需求翻譯成 3D 印表機看得懂的設計圖)。
- 超網路瞬間列印:這組向量被送進 T2L 這台「3D 印表機」。T2L 透過單次前向傳播(也就是只做一次簡單的數學運算,不經過漫長的反覆修改),在零點幾秒內,直接輸出了一組 LoRA 參數。
- 無縫掛載:這組剛剛印好的 LoRA 晶片被直接插上基礎模型(如 Mistral 或 Llama)的大腦上。這個 AI 瞬間就擁有了程式碼數學解題的專業技能,完全不需要重新訓練。
為了讓這台印表機更有效率,Sakana AI 甚至設計了 L(大型)、M(中型)、S(小型)三種尺寸的 T2L 架構,讓資源有限的設備也能享受這種「瞬間下載技能」的便利。
Doc-to-LoRA (D2L):真實版哆啦A夢的記憶吐司
如果 T2L 是為了切換特定技能,那麼 Doc-to-LoRA 就是為了解決「幾萬字超長文件」的記憶問題。D2L 成功將前述耗時數十分鐘的「上下文蒸餾(CD)」過程,完美濃縮到了單次運算中。這就像是哆啦A夢的記憶吐司,只要把文件印在吐司上吃下去,AI 就永遠記住了。
但這裡有一個巨大的工程挑戰:輸入的文件長度可能是一千字,也可能是一萬字,但這台 3D 印表機(超網路)的噴嘴大小(輸出的 LoRA 尺寸)是固定的。要怎麼把大小不一的大象塞進同一個冰箱裡?
- 漏斗般的 Perceiver 架構:D2L 內部使用了一種稱為 Perceiver 的交叉注意力模組。你可以把它想像成一個神奇的資訊壓縮漏斗。無論你倒進去多少水(文件長度有多長),漏斗底部都只有固定數量的孔洞(稱為潛在查詢向量,Latent Queries)。透過這種方式,D2L 可以把長度不一的文本,強制壓縮提煉成固定大小的精華特徵。
- 多個隨身碟拼接法(Chunking Mechanism):為了解決單一 LoRA 容量有限的問題,D2L 採用了創意的分塊策略。如果文件有十個章節,D2L 就會把文件切成十塊,讓超網路分別為每個章節印製一塊小容量的 LoRA 晶片(就像是一個 8GB 的隨身碟)。最後,系統會把這十個小隨身碟在「秩(Rank)」的維度上拼接起來,變成一個 80GB 的大隨身碟。這意味著,文件越長,生成的 LoRA 大腦區塊就越厚實,記憶容量也越大。
- 一次吞嚥,終身受用:透過這個機制,幾萬字的文件在經過一次前向傳播後,就變成了模型神經元的一部分。當使用者後續對這份文件提出一百個問題時,模型完全不需要再看原始文件,也不會產生龐大的 KV Cache,因為知識已經化為本能反應了。
打破了基礎模型原本的物理限制
在實驗室的測試中,Sakana AI 證明了這兩台「超網路印表機」具備令人驚嘆的效能,甚至打破了基礎模型原本的物理限制。
大海撈針測試:突破原生上下文長度極限
在 AI 界用來測試長文本能力的經典任務「大海撈針(Needle-in-a-Haystack)」中,研究人員在一大篇毫無意義的廢話中隱藏了一句關鍵密碼,考驗模型能否找出來。
實驗中使用的基礎模型(Gemma-2-2b-it)原生的記憶體極限大約是 8K Tokens(大約六千多個中文字),超過這個長度,模型就會開始語無倫次。
神奇的事情發生了:研究團隊利用 D2L 把長達 40K Tokens 的文件轉化為記憶吐司(LoRA)讓模型吃下去。結果顯示,模型不僅成功找出了密碼,準確率還近乎完美!這就像是一個原本注意力只能集中十分鐘的人,透過某種技術把知識轉化為肌肉記憶後,居然能夠完美回答出長達一小時演講的所有細節。D2L 成功證明了「參數記憶」可以超越「快取記憶」的長度極限。
從分鐘級到毫秒級的效率
在真實世界的問答資料集(如 SQuAD、QASPER 等)測試中,傳統的上下文蒸餾法需要耗費 40 到 100 多秒,並佔用高達 40GB 到 80GB 的顯示記憶體,這在實際應用中幾乎不可行。而 D2L 無論是在批次模式還是迭代模式下,都能在 1 秒鐘以內完成權重生成,並且只額外消耗不到 4GB 的記憶體。這等於是將知識載入的時間與成本壓縮了幾百倍。
跨模態的能力轉移:純文本模型如何看見世界?
整篇論文中最感到不可思議的實驗,是 D2L 展示的「跨模態轉移」能力。
研究人員拿了一個可以看懂圖片的「視覺語言模型(VLM)」,讓它看一張圖片,然後把 VLM 內部產生的神經元激活值直接丟給 D2L 超網路。接著,D2L 把這些視覺特徵印成了一塊 LoRA 晶片,輸入到一個「從來沒看過圖片、純粹只懂文字的語言模型(LLM)」上。
結果,這個純文字模型在完全沒有外部圖像輸入的情況下,僅靠著新裝上的 LoRA 晶片,居然能在 Imagenette 圖像分類任務中達到 75.03% 的準確率!這證明了 D2L 的超網路能夠成功擔任不同感官之間的「翻譯官」,對未來 AI 的多模態發展具有劃時代的意義。
TN科技筆記的觀點
首先是 「個人化 AI 助理」的實現可能性越來越高了,目前的 AI 助理最為人詬病的就是「健忘」。如果你希望 AI 記住你過去一年的所有對話偏好、公司背景,你必須依賴 RAG(檢索增強)或把幾萬字的紀錄塞進每一次的對話中,這會消耗極為驚人的 API 費用。有了 D2L,企業可以在伺服器後台,每天凌晨花一秒鐘把你的對話紀錄「印」成一個幾 MB 大小的專屬 LoRA。隔天你登入時,系統只要載入你的專屬 LoRA,AI 就會瞬間擁有關於你的所有記憶,且推理速度與成本等同於空白的基礎模型。
其次是 On-Device AI(邊緣運算裝置)的解放,我們的手機與筆電記憶體(RAM)通常只有 8GB 或 16GB。要在手機上讓 AI 閱讀一份兩百頁的 PDF,光是 KV Cache 就會把手機記憶體撐爆,導致嚴重的卡頓。透過 D2L,我們可以用微小的算力先生成一個極小的 LoRA 參數檔,隨後 AI 就能在不消耗龐大記憶體的情況下流暢地跟你討論這份報告內容。這為「斷網環境下的強大 AI 應用」鋪平了道路。
論文內也提及了最大的挑戰,仍然是逃不離「知識干擾(Knowledge Interference)」。當你把一塊新的「記憶吐司」塞進 AI 腦中時,AI 原本的知識可能會被擾亂。如果我們用 D2L 內化了一份資料,接著卻問 AI 一個跟資料完全無關的常識題,AI 的表現會比沒有裝 LoRA 時還要差。這就像是一個學生剛把歷史課本死背進腦海裡,轉頭去考數學時,滿腦子都還是歷史年份,導致數學算錯。如何設計出能夠精準控制「知識啟動時機」,讓 AI 知道什麼時候該用原生記憶、什麼時候該用外掛記憶的機制,將是 Sakana AI 團隊下個要解決的難題。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)

























