In-Context Learning

更新於 發佈於 閱讀時間約 3 分鐘

基本概念

  • In-Context Learning(ICL) 就是讓大型語言模型(LLM)在「不經過額外微調」的情形下,只靠你在 prompt(提示)裡提供的數個範例,就能根據這些範例推理與產生符合新任務需求的回應。
  • 在 ICL 過程中,模型的參數不會因為這些範例而被更新,即「學習」的過程僅發生於一次性推理(inference)階段,而不是長期調整模型本身。
  • ICL 的能力是在大規模預訓練中自動獲得的,是目前主流 LLM(如 GPT-3、Llama 等)的關鍵特徵之一。

原理與特點

  • 本質上,ICL 是**提示工程(Prompt Engineering)**的一種:你可以在 prompt 中直接加入任務描述和幾組 input/output 範例,模型就能在新情境下舉一反三、給出對應答案。
  • 不同於傳統機器學習方法需要再訓練(fine-tuning),ICL 只需調整 prompt 格式與範例,不需額外計算資源。
  • 模型的知識來自於預訓練時見過的巨量語料和輸入-輸出對,ICL 做的是根據 prompt 內容,模擬 human-like reasoning、推論出對應的行為。
  • 這種能力隨著模型規模及預訓練資料量提升而提高,現有 LLM 皆具有某種程度的 ICL 能力。

應用情境

  • 情感分類:只需給出數個句子與標籤範例,模型就能對新句子進行情感判斷。
  • 客製化口語翻譯、正規化:可針對特殊用詞、領域術語,依範例自動歸納規則,提升翻譯品質。
  • 各式 NLU/NLG 任務:分類、抽取、摘要等,皆可用範例驅動,無需重新訓練。
  • 快速原型:在資料有限、需求多變的業務場域,能以最小開發成本測試新任務效果。

與 Few-Shot Learning、Prompt Engineering 的關聯

  • Few-Shot Learning 是 ICL 的一種具體操作:在 prompt 中提供少量(few-shot,通常 2~5 組)範例,讓模型依樣畫葫蘆完成新任務。
  • Prompt Engineering 則泛指設計 prompt 的過程,而 ICL 是 prompt engineering 的核心技法之一。

優點與限制

  • 優點
    • 無需微調,節省時間與硬體資源。
    • 彈性高,範例設計靈活。
    • 易於除錯,只要調整範例格式即可修正異常行為。
  • 限制
    • 過度仰賴 prompt 範例質量與設計,格式不一致可能導致失敗或偏誤。
    • 本質上屬於「黑盒」推論,雖現象易觀察,但原理目前尚無完全共識。

ICL 正快速改變 AI 應用的開發與設計範式,是現代語言模型最重要的能力之一。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
9會員
263內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師
2025/07/14
Feature engineering(特徵工程)是機器學習中將原始資料轉換成能更有效表示問題特徵的過程,目的是提升模型的預測準確度和泛化能力。 主要內容包括: **特徵選擇**:挑選對目標變數最有影響力的欄位或變數。 **特徵轉換**:對原始資料做數學或統計轉換,如標準化、正規化、對數變
2025/07/14
Feature engineering(特徵工程)是機器學習中將原始資料轉換成能更有效表示問題特徵的過程,目的是提升模型的預測準確度和泛化能力。 主要內容包括: **特徵選擇**:挑選對目標變數最有影響力的欄位或變數。 **特徵轉換**:對原始資料做數學或統計轉換,如標準化、正規化、對數變
2025/07/10
Continued pre-training 指的是在已有的預訓練模型基礎上,使用新的資料或特定領域的數據,進一步進行訓練以提升模型在該領域或任務上的表現。這種方法常用於大型語言模型或基礎模型(foundation models),讓模型能更好地適應特定應用場景。 主要概念 • 基礎模型(Fo
2025/07/10
Continued pre-training 指的是在已有的預訓練模型基礎上,使用新的資料或特定領域的數據,進一步進行訓練以提升模型在該領域或任務上的表現。這種方法常用於大型語言模型或基礎模型(foundation models),讓模型能更好地適應特定應用場景。 主要概念 • 基礎模型(Fo
2025/07/10
Amazon Forecast 是 AWS 提供的一項全受管的時間序列預測服務,利用機器學習技術,幫助企業根據歷史數據準確預測未來趨勢,無需具備機器學習專業知識即可使用。 主要特點 • 自動化機器學習:自動選擇最適合資料的演算法,簡化模型訓練和調校流程。 • 高準確度:基於 Amazon.
2025/07/10
Amazon Forecast 是 AWS 提供的一項全受管的時間序列預測服務,利用機器學習技術,幫助企業根據歷史數據準確預測未來趨勢,無需具備機器學習專業知識即可使用。 主要特點 • 自動化機器學習:自動選擇最適合資料的演算法,簡化模型訓練和調校流程。 • 高準確度:基於 Amazon.
看更多
你可能也想看
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News