【資料分析】深度學習 DNN、CNN、RNN 概述

JayRay 資料科學-學習筆記

更新於 2025/01/21發佈於 2025/01/21閱讀時間約 18 分鐘

深度學習 (Deep Learning) 是一種基於人工神經網絡的機器學習技術，旨在從大量數據中學習抽象特徵表示。其核心是通過多層非線性轉換（即「深度」結構）來自動提取數據的高層特徵，從而實現複雜任務（如圖像識別、自然語言處理）。

深度學習的核心概念：

神經網絡：由神經元組成的數學模型，模仿生物神經網絡的信息處理方式。
多層結構：包括輸入層、隱藏層（多層）、輸出層，隱藏層越多，模型表達能力越強。
自動特徵提取：通過訓練，模型能自動從數據中學習相關特徵，而不需要人工設計。
大規模數據和算力：深度學習的成功依賴於大量標記數據和強大的計算資源（如 GPU）。

# 可使用目錄功能快速確認要閱覽的主題

快速比較 DNN、CNN 與 RNN

CNN 和 RNN 都基於 DNN 的全連接層設計進行改進，但更針對特定數據類型（空間數據和序列數據）進行優化：

CNN 保留 DNN 的非線性特徵學習能力，但加入卷積層以降低參數數量並專注於空間結構。
RNN 保留 DNN 的多層結構特性，但加入循環結構以建模時間依賴性。

兩者都是 DNN 的進化版本，針對特定問題進行優化，解決了 DNN 在特定領域的不足。

CNN 和 RNN 對 DNN 進行的改進，專注於特定數據結構的優化設計。這些模型的成功表明，深度學習並非僅僅依賴「深」，而是需要針對具體問題設計合適的架構。

DNN 深度神經網絡（Deep Neural Network）

定義

DNN 是一種具有多層結構的人工神經網絡（ANN），通常包含輸入層、多個隱藏層 和輸出層。其目的是通過多層非線性轉換，自動提取數據的特徵，並用於分類、迴歸等任務。

簡單來說，DNN 是對基本神經網絡（FNN）的擴展，增加了隱藏層的數量，從而能處理更複雜的問題。

常見應用場景

分類任務
- 客戶流失預測（Churn Prediction）。
- 醫療診斷（例如是否患有某種疾病）。
迴歸任務
- 銷售預測。
- 房價預測。
多輸出問題
- 預測同時影響多個變數的情境（例如廣告效果的多維評估）。

基本結構

輸入層（Input Layer）
- 負責接收原始數據特徵。
- 每個神經元對應數據的一個特徵，例如數值型數據中的每一列。
隱藏層（Hidden Layers）
- 通過激活函數引入非線性能力，允許網絡學習複雜的模式。
- 層數越多，表達能力越強，但計算成本和過擬合風險也越高。
輸出層（Output Layer）
- 負責輸出模型的結果，例如：分類問題：每個類別對應一個輸出神經元。迴歸問題：輸出單一值或多個值。

工作原理

前向傳播（Forward Propagation）
- 輸入數據依次通過每一層神經元的權重計算、偏置加成和激活函數，生成輸出。
- 數學表達：
- 其中：z(l)：第 l 層的線性組合。
- - W(l)：第 l 層的權重矩陣。
  - b(l)：偏置項。
  - σ：激活函數。
損失計算（Loss Calculation）
- 通過損失函數衡量模型預測與真實值的誤差。
- 常見損失函數：
- - 分類問題：交叉熵損失（Cross-Entropy Loss）。
  - 迴歸問題：均方誤差（Mean Squared Error, MSE）。
反向傳播（Backpropagation）
- 通過鏈式法則計算每層權重和偏置的梯度。
- 更新權重與偏置以減少損失，優化過程通常使用梯度下降（Gradient Descent）。
權重更新
- 使用優化器（如 Adam、SGD 等）更新權重和偏置。

優點與挑戰

優點：

高表達能力：能從數據中學習複雜的模式和非線性關係。
自動特徵提取：減少人工特徵工程的需求。
應用廣泛：適用於分類、迴歸、多輸出問題。

挑戰：

過擬合風險：模型可能記住訓練數據的細節而忽略通用性。
梯度消失問題：深層網絡中，早期層的梯度可能變得極小。
計算資源需求高：需要強大的硬件支持（如 GPU）。
需要大量數據：小樣本可能導致模型性能欠佳。

Python 範例：簡單 DNN

構建 DNN 非常容易，常見的深度學習框架包括：

TensorFlow/Keras：
- 簡單易用，適合初學者。
- 範例：

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 建立模型
model = Sequential([
    Dense(64, activation='relu', input_shape=(input_dim,)),
    Dense(32, activation='relu'),
    Dense(output_dim, activation='softmax')  # 根據任務選擇激活函數
])

# 編譯模型
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# 訓練模型
model.fit(X_train, y_train, epochs=10, batch_size=32)

PyTorch：

更靈活，適合需要高度定制的場景。
範例：

import torch
import torch.nn as nn

class DNN(nn.Module):
    def __init__(self, input_dim, output_dim):
        super(DNN, self).__init__()
        self.fc1 = nn.Linear(input_dim, 64)
        self.fc2 = nn.Linear(64, 32)
        self.fc3 = nn.Linear(32, output_dim)
        self.relu = nn.ReLU()
    
    def forward(self, x):
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.fc3(x)
        return x

model = DNN(input_dim, output_dim)

CNN 卷積神經網絡（Convolutional Neural Network）

定義

卷積神經網絡（CNN）是一種專門用於處理結構化數據（特別是圖像）的深度學習模型。CNN 通過卷積運算和特徵提取的方式，從圖像中學習局部模式和層次化特徵，廣泛應用於圖像分類、目標檢測、語音識別等領域。

常見應用場景

圖像分類
- 手寫數字識別（MNIST）。
- 圖像標籤分類（如 CIFAR-10、ImageNet）。
目標檢測
- 偵測圖像中的物體及其位置（如 YOLO、Faster R-CNN）。
語音處理
- 語音情緒分析。
- 語音識別（與 RNN 或 Transformer 結合）。
醫學影像分析
- CT/MRI 圖像的腫瘤檢測。
- 醫學影像分類與分割。
自駕車
- 路標識別。
- 車道線檢測。

基本結構

輸入層（Input Layer）

負責接收數據，通常是高維圖像數據，例如彩色圖像的大小是 H×W×C（高度×寬度×通道數，例如 224×224×3）。
特徵：
- 高度（Height）：圖像的垂直像素數。
- 寬度（Width）：圖像的水平像素數。
- 通道（Channel）：如 RGB 圖像有 3 個通道，灰度圖像有 1 個通道。

卷積層（Convolutional Layer）

功能：從圖像中提取局部特徵。
運算：
- 使用一組「卷積核」（filters/kernels）在輸入數據上滑動，計算點積來生成特徵圖（Feature Map）。
- 每個卷積核專注於學習不同的模式，例如邊緣、線條或紋理。
數學公式：

其中：
- Z 是特徵圖。
- W 是卷積核（權重矩陣）。
- X 是輸入數據。
- b 是偏置項。
重要參數：
- 卷積核大小（Filter Size）：如 3×3、5×5。
- 步長（Stride）：每次滑動的步長，步長越大，特徵圖尺寸越小。
- 填充（Padding）：為保留輸出尺寸，是否在輸入周圍補零。

激活函數（Activation Function）

功能：引入非線性特性，讓模型能學習複雜的模式。
常用函數：
- ReLU（Rectified Linear Unit）：常用於卷積層，計算簡單，效果良好。

池化層（Pooling Layer）

功能：通過降維減少特徵圖大小，降低計算量並增強模型的平移不變性。
種類：
- 最大池化（Max Pooling）：取池化窗口內的最大值。
- 平均池化（Average Pooling）：取池化窗口內的平均值。
超參數：
- 窗口大小（如 2×2）。
- 步長（通常與窗口大小相同）。

全連接層（Fully Connected Layer, FC Layer）

功能：將提取的特徵映射到輸出空間，用於分類或回歸。
輸出層：通常用於輸出最終結果：
- 二分類：單一輸出節點，激活函數為 Sigmoid。
- 多分類：多個輸出節點，激活函數為 Softmax。

工作原理

輸入圖像
- 將原始圖像數據輸入 CNN，經過歸一化處理（例如將像素值縮放到 [0,1]）。
卷積層提取特徵
- 第一層卷積提取低層特徵，如邊緣、線條。
- 更深層的卷積提取高階特徵，如形狀、物體部件。
池化層降維
- 壓縮特徵圖，減少計算成本，同時保留主要信息。
多層卷積與池化
- 通過堆疊多層卷積和池化層，逐漸提取更抽象、更高級的特徵。
全連接層輸出結果
- 將最終特徵輸入全連接層，用於分類或其他任務。

優點與挑戰

優點：

特徵自動提取：CNN 能自動學習特徵，而不需要手工設計。
局部感知：卷積層專注於局部模式，如圖像中的邊緣、角點。
參數共享：同一卷積核在整個圖像上滑動，顯著降低參數數量。
平移不變性：池化層幫助模型對輸入的平移和局部變化具有穩定性。

挑戰：

計算量大：需要大量計算資源（尤其是處理高分辨率圖像時）。
過擬合風險：深層模型容易過擬合，需要正則化和數據增強技術。
數據需求高：CNN 需要大量標註數據來訓練。

Python 範例：簡單 CNN

以下是一個使用 Keras 構建的簡單 CNN 模型範例：

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense

# 建立模型
model = Sequential([
    Conv2D(filters=32, kernel_size=(3, 3), activation='relu', input_shape=(64, 64, 3)),
    MaxPooling2D(pool_size=(2, 2)),
    Conv2D(filters=64, kernel_size=(3, 3), activation='relu'),
    MaxPooling2D(pool_size=(2, 2)),
    Flatten(),
    Dense(units=128, activation='relu'),
    Dense(units=10, activation='softmax')  # 用於 10 類分類
])

# 編譯模型
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# 模型摘要
model.summary()

RNN 遞歸神經網絡（Recurrent Neural Network）

定義

RNN 是一類專為處理序列數據設計的神經網絡，它可以利用數據中的時間順序信息，讓網絡對當前輸入和之前的狀態進行建模。因此，RNN 非常適合處理像時間序列、語言數據、音頻信號等帶有上下文或依賴關係的數據。

核心思想：RNN 在時間維度上引入了循環結構，允許隱藏層的輸出影響下一步的計算，形成「記憶」效果。

常見應用場景

自然語言處理（NLP）
- 情感分析（Sentiment Analysis）。
- 語言建模（Language Modeling）。
- 機器翻譯（Machine Translation）。
時間序列分析
- 股價預測。
- 天氣預測。
- 信號處理（如音頻分類）。
語音識別
- 轉錄語音到文本。
生成任務
- 文本生成（如 ChatGPT）。
- 圖像字幕生成。

基本結構與工作原理

RNN 的結構包含以下部分：

輸入層（Input Layer）

每個時間步（time step）輸入一個序列中的數據。例如：
- 單詞序列：每個時間步是一個單詞的詞向量。
- 時間序列數據：每個時間步是一個觀測值。
數據結構：
- 對於序列長度 T，輸入數據 x 表示為：
- 每個 x(t) 是一個特徵向量。

隱藏層（Hidden Layer）

遞歸關係：隱藏層的輸出同時依賴於當前輸入和上一時間步的隱藏狀態。

其中：

- h(t)：當前時間步的隱藏狀態。
- h(t−1)：上一時間步的隱藏狀態。
- x(t)：當前時間步的輸入。
- Wh、Wx：權重矩陣。
- b：偏置向量。
- f：激活函數（如 Tanh 或 ReLU）。
隱藏狀態的作用：儲存序列的「記憶」，幫助模型理解上下文。

輸出層（Output Layer）

對每個時間步 t 的隱藏狀態 h(t) 生成對應的輸出 o(t)：

- g：輸出層的激活函數（例如 Softmax 或線性函數）。
輸出形式因任務而異：
- 序列到序列（Sequence-to-Sequence）：輸出與輸入具有相同長度。
- 序列到標籤（Sequence-to-Label）：輸出為一個標籤（例如情感分類）。

工作流程

前向傳播（Forward Propagation）
- 將序列數據分時間步輸入。
- 每個時間步的輸出依賴當前輸入和之前的隱藏狀態。
- 將最後或全部隱藏狀態作為輸出。
損失計算
- 根據真實標籤計算損失，例如：分類問題：交叉熵損失。回歸問題：均方誤差（MSE）。
反向傳播（Backpropagation Through Time, BPTT）
- 通過時間反向計算每個時間步的梯度，更新權重和偏置。

優點與挑戰

優點：

上下文建模：通過隱藏狀態，RNN 能捕捉序列中的上下文依賴性。
序列處理能力強：適合處理變長輸入或輸出，例如自然語言處理（NLP）和時間序列預測。

挑戰：

梯度消失與梯度爆炸：
- 當序列過長時，早期時間步的梯度可能過小（梯度消失）或過大（梯度爆炸）。
- 解決方法：使用改進版本（如 LSTM 和 GRU）。
長期依賴建模困難：
- 基本 RNN 難以有效捕捉序列中長距離的依賴關係。
計算成本高：
- 每個時間步的計算需要依賴上一時間步，難以並行化。

Python 範例：簡單 RNN

以下是一個使用 TensorFlow/Keras 實現簡單 RNN 的範例：

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, Dense

# 建立模型
model = Sequential([
    SimpleRNN(50, activation='tanh', input_shape=(100, 1)),  # 100 個時間步，每步 1 個特徵
    Dense(1, activation='sigmoid')  # 輸出單一值，用於二分類
])

# 編譯模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 模型摘要
model.summary()

10會員

23內容數

留言

留言分享你的想法！

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

JayRay 的沙龍的其他內容

【資料分析】Junior 資料分析師必備的統計知識 (一) - 描述統計

本篇文章提供描述性統計的完整指南，涵蓋集中趨勢、離散趨勢和數據分佈等重要概念，並附上豐富的實務應用案例與 Python 資料視覺化參考連結，協助讀者快速瞭解數據分析的基礎知識。

#數據 #模型 #python

【資料分析】簡單高效的機器學習模型 Naive Bayes

Naive Bayes是一種基於貝葉斯定理的機器學習分類演算法，適用於文本分類、垃圾郵件檢測及情感分析等任務。雖然假設特徵之間相互獨立，這在現實中不常成立，但其高效計算與穩定性使得在小數據集及高維度特徵空間中表現良好。

#數據 #機器學習 #machinelearning

【資料分析】什麼是數據洩漏? 新手常犯的錯誤以及該如何正確分析資料

數據洩漏是在機器學習和數據分析中，因不當使用資料而造成的模型性能評估錯誤。這篇文章探討數據洩漏的常見形式及其對模型可靠性的影響，並提供防範措施，如嚴格劃分數據集、僅對訓練集進行預處理和使用交叉驗證。瞭解這些概念有助於構建更穩健的數據驅動模型。

#數據 #資訊 #機器學習

【資料分析】最清楚分別準確率、精確率、召回率、F1-Score 的差異與使用情境

本文探討四個關鍵的分類模型評估指標：準確率、精確率、召回率與 F1-Score。這些指標各自從不同角度反映模型的預測性能，理解它們的定義、計算方式和適用情境，能夠幫助您在數據分析和機器學習項目中做出更優的決策。

#模型 #指標 #機器學習

【資料分析】python機器學習-判斷聚類算法好壞的常用內部指標

本文探討了聚類算法中常用的效果評估指標，包括內部和外部指標，並詳細介紹了輪廓係數、群集內距離平方和（WCSS）及Davies-Bouldin指數三種主要指標的計算方法、優缺點與應用場景。這些指標各有特點，適用於不同的聚類場景，有助於有效評估聚類質量，提升無監督學習的效能。

#數據 #程式 #數據分析

【資料分析】python機器學習-常用非監督式學習的聚類算法

這篇文章深入探討了數據科學與機器學習中的主要聚類算法，包括 K-means、DBSCAN 和層次聚類。介紹了每種算法的工作原理、優缺點及其適用場景，幫助讀者理解何時選擇何種聚類技術。本文還提供了相關的程式碼範例，方便讀者進一步學習與實踐。

#數據 #異常 #合併

【資料分析】Junior 資料分析師必備的統計知識 (一) - 描述統計

#數據 #模型 #python

【資料分析】簡單高效的機器學習模型 Naive Bayes

#數據 #機器學習 #machinelearning

【資料分析】什麼是數據洩漏? 新手常犯的錯誤以及該如何正確分析資料

#數據 #資訊 #機器學習

【資料分析】最清楚分別準確率、精確率、召回率、F1-Score 的差異與使用情境

#模型 #指標 #機器學習

【資料分析】python機器學習-判斷聚類算法好壞的常用內部指標

#數據 #程式 #數據分析

【資料分析】python機器學習-常用非監督式學習的聚類算法

#數據 #異常 #合併

你可能也想看

Google News 追蹤

Karen的沙龍

2024/07/28

【邁向圖神經網絡GNN】Part5: 建構 GNN model 實作 Cora 資料集結點分類任務

本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡（GNN），並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化，包括引入批量標準化和獨立的消息傳遞層，調整Dropout和聚合函數，顯著提高了模型的分類準確率。實驗結果表明，經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。

#GNN #Graph #dropout