Semantic Segmentation(語義分割)是計算機視覺領域中的一項技術,目的是將圖像中的每一個像素賦予特定的語義標籤,從而理解圖像中的不同物體或區域。
主要概念
- 對圖像每個像素分類,使其屬於預定義的類別(例如:人、車、道路、天空等)。 不區分同一類別的不同實例,只區分語義類別。 產生一張和輸入影像大小相同的標籤圖(Segmentation Map),以不同顏色或標記表示不同類別。
工作流程
- 使用卷積神經網絡(CNN)或Transformer等深度學習模型從圖像中提取特徵。 利用上採樣(Upsampling)層恢復空間尺寸,對每個像素進行分類。 輸出一個像素級的語義標籤圖。
應用範圍
- 自動駕駛:辨識路面、車輛、行人等。 醫療影像分析:分割腫瘤、器官等。 衛星影像解譯:土地分類、水體辨識。 工業檢測:缺陷檢測與分類。
與 Instance Segmentation 的主要差異
- Semantic Segmentation 不區分同類物體的個別實例,僅區分類別。 Instance Segmentation 除了分類,還能辨識同類物體的不同個體。
常見模型有 Fully Convolutional Networks (FCNs)、U-Net、DeepLab 及 SegNet 等。
總結來說,Semantic Segmentation是透過讓每個像素被賦與語義類別,讓電腦能細緻理解圖像內容,是圖像理解的基礎技術之一。