「少樣本學習能力 (Few-shot Learning)」和「零樣本學習能力 (Zero-shot Learning)」是描述預訓練模型(如 GPT 系列)在應用到新的、未見過的任務時,所需訓練數據量的能力。這兩種能力都非常強大,因為它們減少了對大量標註數據的依賴。
零樣本學習能力 (Zero-shot Learning):
- 定義: 零樣本學習指的是模型在沒有接收到任何針對特定任務的訓練樣本的情況下,僅僅基於對任務的自然語言描述(例如,指令或提示),就能夠完成該任務的能力。
- 運作方式: 模型依賴其在預訓練階段學到的廣泛知識和語言理解能力。通過精心設計的提示,我們可以引導模型理解我們想要它執行的任務,並生成相應的輸出。
- 例子: 假設我們想讓一個預訓練好的語言模型將英文翻譯成法文。在零樣本學習的設定下,我們可以直接給模型一個包含翻譯指令的提示,例如:「Translate the following English text to French: 'Hello, how are you?'」。模型可能會根據它在預訓練中學到的跨語言知識,直接輸出法文翻譯,而不需要我們提供任何英法翻譯的訓練樣本。
- 定義: 少樣本學習指的是模型在僅接收到少量(通常是幾個到幾十個)針對特定任務的訓練樣本(這些樣本通常作為提示的一部分)的情況下,就能夠快速學習並完成該任務的能力。
- 運作方式: 模型能夠利用這少量的示例來理解任務的模式和規則,並將其泛化到新的、未見過的輸入上。這些示例可以幫助模型更好地理解任務的具體要求和期望的輸出格式。
- 例子: 延續上面的翻譯例子,在少樣本學習的設定下,我們可以給模型提供幾個英法翻譯的示例,例如:
English: 'Thank you' -> French: 'Merci' English: 'Good morning' -> French: 'Bonjour' English: 'Good night' -> French: 'Bonne nuit' English: 'Hello, how are you?' -> French:
模型可能會基於這些少量的示例,更好地理解翻譯的上下文和風格,並生成正確的法文翻譯。
總結來說:
- 零樣本學習就像是在沒有任何指導的情況下,直接根據任務描述來完成任務。
- 少樣本學習就像是先看幾個例子,然後根據這些例子來完成類似的任務。
這兩種學習能力都是大型預訓練語言模型(如 GPT-3、GPT-4 等)的重要特性,它們極大地提高了模型的靈活性和通用性,使其能夠在各種不同的任務上取得出色的表現,而無需大量的任務特定數據。這對於標註數據成本高昂或難以獲取的任務尤其有價值。