基本概念
- In-Context Learning(ICL) 就是讓大型語言模型(LLM)在「不經過額外微調」的情形下,只靠你在 prompt(提示)裡提供的數個範例,就能根據這些範例推理與產生符合新任務需求的回應。
- 在 ICL 過程中,模型的參數不會因為這些範例而被更新,即「學習」的過程僅發生於一次性推理(inference)階段,而不是長期調整模型本身。
- ICL 的能力是在大規模預訓練中自動獲得的,是目前主流 LLM(如 GPT-3、Llama 等)的關鍵特徵之一。
原理與特點
- 本質上,ICL 是**提示工程(Prompt Engineering)**的一種:你可以在 prompt 中直接加入任務描述和幾組 input/output 範例,模型就能在新情境下舉一反三、給出對應答案。
- 不同於傳統機器學習方法需要再訓練(fine-tuning),ICL 只需調整 prompt 格式與範例,不需額外計算資源。
- 模型的知識來自於預訓練時見過的巨量語料和輸入-輸出對,ICL 做的是根據 prompt 內容,模擬 human-like reasoning、推論出對應的行為。
- 這種能力隨著模型規模及預訓練資料量提升而提高,現有 LLM 皆具有某種程度的 ICL 能力。
應用情境
- 情感分類:只需給出數個句子與標籤範例,模型就能對新句子進行情感判斷。
- 客製化口語翻譯、正規化:可針對特殊用詞、領域術語,依範例自動歸納規則,提升翻譯品質。
- 各式 NLU/NLG 任務:分類、抽取、摘要等,皆可用範例驅動,無需重新訓練。
- 快速原型:在資料有限、需求多變的業務場域,能以最小開發成本測試新任務效果。
與 Few-Shot Learning、Prompt Engineering 的關聯
- Few-Shot Learning 是 ICL 的一種具體操作:在 prompt 中提供少量(few-shot,通常 2~5 組)範例,讓模型依樣畫葫蘆完成新任務。
- Prompt Engineering 則泛指設計 prompt 的過程,而 ICL 是 prompt engineering 的核心技法之一。
優點與限制
- 優點:
- 無需微調,節省時間與硬體資源。
- 彈性高,範例設計靈活。
- 易於除錯,只要調整範例格式即可修正異常行為。
- 限制:
- 過度仰賴 prompt 範例質量與設計,格式不一致可能導致失敗或偏誤。
- 本質上屬於「黑盒」推論,雖現象易觀察,但原理目前尚無完全共識。
ICL 正快速改變 AI 應用的開發與設計範式,是現代語言模型最重要的能力之一。