U-Net 是一種專門設計用於生物醫學影像分割的卷積神經網路架構,但現在也廣泛應用於其他領域的影像分割任務。它之所以被稱為「U-Net」,是因為它的架構呈現一個明顯的「U」形。
以下是 U-Net 架構的主要特點:
* 收縮路徑 (Contracting Path) / 編碼器 (Encoder):* 這部分是 U 形結構的左側(下行部分)。
* 它由多個卷積層(通常是兩個 3x3 卷積)組成,每個卷積層後跟一個 ReLU 激活函數和一個用於降採樣的 2x2 最大池化層,步長為 2。
* 這個路徑的作用是逐步提取輸入圖像的上下文信息,也就是圖像中不同層次的特徵。隨著網路的深入,空間解析度會降低,但特徵的數量會增加。
* 擴張路徑 (Expanding Path) / 解碼器 (Decoder):
* 這部分是 U 形結構的右側(上行部分)。
* 它也由多個卷積層組成,但與收縮路徑不同的是,它使用轉置卷積(或稱為反卷積)來進行上採樣,增加特徵圖的空間解析度。
* 每個上採樣步驟後,會將來自收縮路徑中對應層級的特徵圖進行裁剪和拼接(concatenation)。這個拼接是 U-Net 的關鍵創新之一,它允許解碼器利用編碼器提取的低階細節特徵。
* 拼接後,通常會跟隨兩個 3x3 卷積層和 ReLU 激活函數。
* 跳躍連接 (Skip Connections):
* U 形結構中連接收縮路徑和擴張路徑的水平箭頭就是跳躍連接。
* 它們直接將收縮路徑中較早層級的高解析度特徵圖傳遞到擴張路徑中對應的層級。
* 這樣做的目的是彌補在降採樣過程中損失的細節信息,使得網路在生成最終的分割結果時能夠更精確地定位物體的邊界。
* 輸出層 (Output Layer):
* 在擴張路徑的最後,通常會使用一個 1x1 的卷積層將最終的特徵圖映射到所需的類別數量。
* 對於二元分割(例如,區分前景和背景),輸出通常是一個通道的圖像,每個像素的值表示屬於前景的機率。
U-Net 的優勢:
* 有效利用上下文信息和細節信息: 透過收縮路徑獲取全局上下文,並透過跳躍連接結合來自收縮路徑的細節信息,實現精確的分割。
* 適用於小數據集: 由於其架構設計,U-Net 相較於其他深度學習模型,在只有少量標註數據的情況下也能取得不錯的成果。
* 端到端訓練: 可以直接輸入原始圖像,輸出分割結果,無需複雜的後處理步驟。
總結來說,U-Net 是一種強大的影像分割網路,其獨特的 U 形架構和跳躍連接使其能夠有效地結合上下文信息和細節信息,從而在各種影像分割任務中表現出色,尤其是在生物醫學影像分析領域。