
[場景]
小美是資料標註員,負責辨識圖像資料並加上標籤,然後交給工程師進行模型訓練。
眼看已經接近下午5點,可是尚未標註的資料還有很多……

一、標籤不夠,是現實世界的常態
想像你要訓練一個「動物辨識模型」。
你有:
- 100 張已經人工標記好的圖片(有標籤)
- 20,000 張沒標籤的圖片
問題來了:
- 只用 100 張可以訓練嗎?資料太少。
- 全部人工標註?成本太高。
這時候,就會發現:
使用監督式學習(Supervised Learning),資料必須全部都有標籤。
使用非監督式學習(Unsupervised Learning)又無法達到分類效果。
於是,出現了第三種學習方式。
二、什麼是半監督式學習(Semi-Supervised Learning)?
半監督式學習的核心概念很簡單:
少量有標記資料 + 大量未標記資料的學習方式。
它的概念是:
- 先用少量已標註資料訓練一個初步模型
- 再讓模型去「推測」大量未標記的資料標籤
- 把可信的結果匯整,加入訓練資料中
簡單說:
用已知的,擴張未知的。
這種作法在技術上常被稱為「偽標籤(Pseudo-label)」或「自我訓練(Self-training)」策略。
三、它跟其他學習方式有什麼不同?
監督式學習:
✔資料全部需要標註
✔適合資料已標註並且數量充足
非監督式學習
✔資料不需要標註
✔適合依相似特性做分群
半監督式學習
✔少量已標註的資料
✔適合用在標註成本昂貴、資料數量多
可以把它想成:
監督式與非監督式的「混血策略」。
四、常見應用場景
半監督式學習最常出現在:
- 📷 電腦視覺(Computer Vision)
- 🗣 語音辨識
- 🏥 醫療影像判讀
- 🌐 網路內容分類
這些領域有一個共同點:
資料很多,但標註成本很貴、很花時間。
例如醫療影像,需要專業醫師標註。
不可能全部人工完成。
五、考試提示
考題通常不會深入演算法。(出現機率不大)
但是可能會這樣問:
「下列何者為半監督式學習的特徵?」
正確答案通常是:
✔ 使用少量標記資料與大量未標記資料
六、實務應用上,它仍是值得認識的
因為在真實的應用情境裡:
資料幾乎永遠是不完整的。
半監督式學習代表的是一種「現實妥協」。
它不是最理想的方法,
卻往往是最務實的選擇。
七、小結
機器學習的主要學習方式包含:
- 監督式:標籤完整
- 非監督式:完全無標籤
- 半監督式:現實世界的折衷解法
到這裡,我們已經把「機器學習的模型」介紹的差不多了。
但請留意:
挑對模型,只是成功的一部分。
真正影響結果的,往往是資料本身。
▶ Next:下一篇,我們該來談談——
👉 為什麼資料清理,比模型選擇更重要?
課程說明
🔖 以下內容為本系列的學習安排與閱讀指引。
- 為方便大家學習,我將全部章節進行劃分,詳見導覽文。
- 本系列文章區分為「免費文」與「收費文」,
目的在於清楚分開「初步認識」與「深入理解」兩個學習階段。
收費內容將在基礎概念之上,整合重點圖表與說明,並融入個人教學與應考經驗,
協助讀者建立可實際運用的理解框架。 - 各系列的收費文章皆以「考試情境」為主軸進行整理,
不僅補齊必要的模型原理與判斷邏輯,
亦會搭配模擬題與選項解析,
協助學習者從「看懂內容」,進一步轉化為「選得正確」。

























