近年來,我審過不少中國論文期刊中關於蒸餾系統(Distillation System)的研究,因此對這類概念已經見怪不怪。蒸餾的核心類似於「老師與學生」的關係,老師(大模型)將知識傳授給學生(小模型),學生依循老師的學習路徑來提升準確率。
圖片來源deepseek論文
在 DeepSeek-R1 的研究中,研究團隊選擇了開源的 Qwen 和 Llama 作為教師模型,讓 DeepSeek 作為學生來學習。為什麼選擇這兩個模型呢?一個關鍵因素是 Qwen 和 Llama 均為開源 LLM 排行榜的前幾名,具備強大的推理能力和泛化能力。
多數現代開源 LLM 都是基於 Llama 概念架構所建立,甚至不少模型的底層本身就是 Llama。因此,Llama 本身也可以被視為開源 LLM 生態中的重要老師角色。
在生成式 AI 的早期階段,訓練方法主要是餵入大量資料,透過相似度比對來學習,也就是讓模型從龐大的語料中進行收斂學習。其運作方式類似於我們的日常語言學習,模型根據我們提出的問題,在內部資料庫中進行篩選與映射,確定回答方向並產生文字。然而,較少人深入探討生成後的自我學習能力,這正是強化學習(Reinforcement Learning, RL) 所帶來的突破。
強化學習的核心概念,是讓模型遵循特定規則,透過獎勵機制來學習。研究人員會設定何種回答是正確的,然後讓 AI 自行探索最佳解法,逐步進化。這個過程類似於玩遊戲通關,隨著關卡越來越難,AI 需要不斷嘗試各種方法來解決問題,以獲取獎勵。強化學習的成功案例之一就是 AlphaGo,它透過自我對弈來提升圍棋能力,最終擊敗世界頂尖棋手。
當然DeepSeek也做了許多底層模型的最佳化,才達成現在的效果,這些優化過程共同塑造了當前的強大 AI 系統,使其能夠不斷提升性能並適應更廣泛的應用場景,相信在DeepSeek的開源後會加速LLM的開發方向以及商業化的價格優勢。
我個人還是會認為若要直接使用,企業的資安問題可能會有點危險,但未來若還有一層防護機制例如Chatgpt進入Azure體系的那種方向,我覺得會是一種好的選擇。
推薦程度★★★☆☆
推薦的話我持保留態度,但可以嘗試玩玩看。