卷積層 (Convolutional Layer)

更新於 發佈於 閱讀時間約 4 分鐘

「卷積層 (Convolutional Layer)」是卷積神經網路 (CNN) 中最核心的組成部分,它負責從輸入圖像中提取各種視覺特徵。

卷積層的主要功能:

  • 特徵提取 (Feature Extraction): 通過使用一系列可學習的濾波器(或稱為卷積核),卷積層能夠自動地從輸入圖像中提取出有意義的局部模式,例如邊緣、角點、紋理、顏色梯度等。
  • 降低參數量 (Parameter Reduction): 由於卷積層中的濾波器會在整個輸入圖像上滑動並重複使用相同的權重(權重共享),因此相較於全連接層,卷積層的參數數量大大減少,這有助於防止過擬合並提高訓練效率。
  • 保留空間關係 (Spatial Relationship Preservation): 卷積運算考慮了像素之間的空間鄰近關係,這對於處理圖像這種具有空間結構的數據非常重要。

卷積層的工作原理:

  1. 濾波器 (Filters / Kernels): 卷積層包含一個或多個小的權重矩陣,這些權重矩陣就是濾波器或卷積核。每個濾波器負責檢測輸入圖像中的一種特定特徵。濾波器的大小通常是小的奇數方形矩陣,例如 3x3、5x5 等。
  2. 卷積運算 (Convolution Operation):
    • 卷積層會將每個濾波器在輸入圖像上滑動(或稱卷積),從左到右、從上到下。 在滑動的每一個位置,濾波器會與輸入圖像中對應大小的局部區域進行點乘(element-wise multiplication),然後將所有乘積相加,得到一個單個的輸出值。 這個輸出值就代表了在該位置上,輸入圖像與該濾波器所要檢測的特徵的相似程度。
  3. 步長 (Stride): 濾波器在輸入圖像上滑動時,每次移動的像素數量稱為步長。步長的大小決定了輸出特徵圖的尺寸。步長越大,輸出特徵圖的尺寸越小。
  4. 填充 (Padding): 在進行卷積運算之前,有時會在輸入圖像的邊緣填充額外的像素(通常是 0)。填充的目的是控制輸出特徵圖的尺寸,或者使得邊緣像素也能被充分地卷積。常見的填充方式有:
    • Valid Padding (No Padding): 不進行填充,輸出特徵圖的尺寸會小於輸入圖像。 Same Padding: 填充足夠的像素,使得輸出特徵圖的尺寸與輸入圖像相同(通常用於步長為 1 的情況)。
  5. 特徵圖 (Feature Maps): 對輸入圖像使用一個濾波器進行卷積運算後,會得到一個二維的輸出矩陣,稱為特徵圖或激活圖 (activation map)。每個特徵圖對應一個濾波器,並反映了該濾波器在輸入圖像不同位置上的響應強度。如果卷積層包含多個濾波器,那麼輸出就會是多個特徵圖的疊加。
  6. 激活函數 (Activation Function): 在卷積運算之後,通常會對特徵圖的每個元素應用一個非線性激活函數(例如 ReLU),以引入非線性特性。

總結來說,卷積層通過在輸入圖像上滑動可學習的濾波器來提取局部特徵。濾波器的權重會在訓練過程中自動學習,以檢測對分類或其他任務有用的視覺模式。通過調整濾波器的大小、數量、步長和填充等參數,可以控制卷積層的行為和輸出。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
14會員
294內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/05/26
「Dropout」是一種在深度學習中常用的正則化 (Regularization) 技術,主要用於防止神經網路過擬合 (Overfitting)。 你可以將 Dropout 想像成在訓練過程中,隨機地讓網路中的一些神經元「暫時休息」,不參與本次的向前傳播和反向傳播過程。 Dropout 的工作原
2025/05/26
「Dropout」是一種在深度學習中常用的正則化 (Regularization) 技術,主要用於防止神經網路過擬合 (Overfitting)。 你可以將 Dropout 想像成在訓練過程中,隨機地讓網路中的一些神經元「暫時休息」,不參與本次的向前傳播和反向傳播過程。 Dropout 的工作原
2025/05/26
「批次標準化 (BN - Batch Normalization)」是一種在深度學習中廣泛使用的技術,特別是在訓練非常深的網路(例如 CNN)時,用於提高模型的性能和穩定性。它通過標準化(即將數據調整為具有零均值和單位方差)網路中每一層的輸入來實現這一點。 你可以將批次標準化想像成在每一層神經元接
2025/05/26
「批次標準化 (BN - Batch Normalization)」是一種在深度學習中廣泛使用的技術,特別是在訓練非常深的網路(例如 CNN)時,用於提高模型的性能和穩定性。它通過標準化(即將數據調整為具有零均值和單位方差)網路中每一層的輸入來實現這一點。 你可以將批次標準化想像成在每一層神經元接
2025/05/26
「ReLU (Rectified Linear Unit)」是一種非常常見且廣泛應用於人工神經網路(包括卷積神經網路)中的激活函數。 你可以將激活函數想像成神經元中的一個開關,它決定了神經元的輸出應該是什麼。ReLU 函數尤其簡單且有效。 ReLU 的數學定義: ReLU 函數的數學表達式非常
2025/05/26
「ReLU (Rectified Linear Unit)」是一種非常常見且廣泛應用於人工神經網路(包括卷積神經網路)中的激活函數。 你可以將激活函數想像成神經元中的一個開關,它決定了神經元的輸出應該是什麼。ReLU 函數尤其簡單且有效。 ReLU 的數學定義: ReLU 函數的數學表達式非常
看更多
你可能也想看
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
本文主要介紹,如何利用VAE變分自編碼器來訓練生成圖片。 訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器,主要是一種將原始資料編碼到潛在向量空間,再編碼回來的神經網路。
Thumbnail
本文主要介紹,如何利用VAE變分自編碼器來訓練生成圖片。 訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器,主要是一種將原始資料編碼到潛在向量空間,再編碼回來的神經網路。
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
視覺層級並不侷限於平面設計,在用戶體驗及介面上更是一個重要的核心之一。視覺層級除了讓畫面的視覺編排更加精緻好看,更重要的功能是能讓畫面有效地被組織,讓觀者更容易理解。
Thumbnail
視覺層級並不侷限於平面設計,在用戶體驗及介面上更是一個重要的核心之一。視覺層級除了讓畫面的視覺編排更加精緻好看,更重要的功能是能讓畫面有效地被組織,讓觀者更容易理解。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
卷積神經網路(CNN)是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用,包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文,讀者將瞭解CNN在影像辨識領域的優勢和運作原理。
Thumbnail
卷積神經網路(CNN)是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用,包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文,讀者將瞭解CNN在影像辨識領域的優勢和運作原理。
Thumbnail
針對辨識物的不同,流程就會不一樣,在依照現實狀況進行刪減,以下說明為個人常用的流程。 基本流程: 讀圖 灰階 濾波 (看圖片雜訊多不多) 二值化 連通區域 特徵篩選 特徵資訊 辨識 - (OCR,量測,瑕疵檢測等。) 名詞介紹 Gray 灰階 將原始的彩色圖像轉換為灰階圖
Thumbnail
針對辨識物的不同,流程就會不一樣,在依照現實狀況進行刪減,以下說明為個人常用的流程。 基本流程: 讀圖 灰階 濾波 (看圖片雜訊多不多) 二值化 連通區域 特徵篩選 特徵資訊 辨識 - (OCR,量測,瑕疵檢測等。) 名詞介紹 Gray 灰階 將原始的彩色圖像轉換為灰階圖
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News