「人工智慧 +1」自學 Day4:
類神經網路(Artificial Neural Networks, ANN) 與 深度學習(Deep Learning, DL)
(*最末會加上一個統整,關於深度學習在監督式/非監督式/強化學習的應用。)
▹類神經網路(Artificial Neural Networks, ANN)
1.發展
▪︎ 概念:模仿生物神經元,對人類大腦結構的模擬。
▪︎ 起源:神經科學家 Warren McCulloch 和邏輯學家 Walter Pitts 論文發表(1943),提出第一個「人工神經元」的數學模型,奠定理論基礎。
▪︎ 實踐:科學家 Frank Rosenblatt 創造了第一個可以學習的類神經網路「感知器 (Perceptron)」(1958),實現「對簡單的輸入進行分類」。
▪︎ 爆發:此後,類神經網路的發展陷入停滯,直到21世紀來臨,「電腦算力」提升和「大數據」出現,才爆炸性成長。
2.命名
「類神經網路」原始名稱:Artificial Neural Network, ANN,強調「人工」神經元,模擬生物神經元。
到了當代,則由於語境使用上已有默契,確知所指涉的不是生物神經元,於是逐漸省略「人工(Artificial)」,代之以「神經網路(Neural Network, NN)」。
在現在一般使用情境,基本上,神經網路, NN=類神經網路, ANN。(以下使用「神經網路, NN」)
3.「生物神經元」模仿
▪︎ 基本單位:人工神經元 (Perceptron),神經網路的最小組成單位。
▪︎ 工作原理:「輸入」→輸入「加權」→輸出結果。
(1)輸入 (Inputs):接收來自其他神經元的數據,每個輸入有其權重 (Weight),代表其重要性。
(2)加權總和 (Weighted Sum):所有輸入的權重總和。 (3)激活函數 (Activation Function):類似於生物神經元的「閾值」,根據加權總和判斷「激活」神經元,傳遞結果到下一個層級。
→→綜上所述,「神經元單元」+「權重」+「激活函數」=(即構成)神經網路模型
▪︎ 結構:由人工神經元的「層(Layers)」組成,主要是三大類層次:
(a)輸入層 (Input Layer):接收外部數據。
(b)輸出層 (Output Layer):產出結果。
(c)隱藏層 (Hidden Layers):位於輸入層和輸出層之間。一個神經網路可以有0~N個隱藏層。我們可以將這比喻為神經網路進行運算和學習的「大腦」。
4.類型
▪︎ 第一代「無隱藏層」:科學家 Frank Rosenblatt的感知器 (Perceptron, 1958)。僅包含「輸入→輸出」,沒有隱藏層,僅能解決線性問題,不能解決非線性問題**。
(**註:非線性問題如XOR,而這個限制直接導致發展停滯期,直到21世紀初才扭轉形勢。)
▪︎「隱藏層」發展:
(a)多層感知器(Multi-Layer Perceptron, MLP),加入「隱藏層」,能處理更複雜的映射:輸入層→隱藏層→輸出層。
(b)深度神經網路:多層隱藏層,可處理更複雜的特徵學習。(也是深度學習的「深度」的具體指涉所在。下一段即將提到。)

神經網路類型
▹深度學習(Deep Learning, DL)
▪︎ 本質:就是「深度神經網路(Deep Neural Networks)」的應用。
▪︎ 定義:「深層結構」的神經網路。「深度」指的就是「多層」隱藏層(基本上2層以上即符合定義,而目前應用已達數十~數百不等)。
▪︎「多層隱藏層」舉例(圖像辨識)**
第一層隱藏層:學習辨識最基本的特徵,如邊緣、線條和顏色。
第二層隱藏層:組合基本特徵,學習辨識更細緻的特徵,如型態、形狀。
第三層隱藏層:組合型態、形狀各部位,學習辨識區分出單獨具體物件。
… 第N層隱藏層:最終辨識出整個物體是「貓」還是「狗」。
(**註:此處舉例僅作為說明示意之用,闕漏/不嚴謹請忽略。)
▪︎ 突破關鍵:
(a)硬體:GPU運算力提升
(b)輸入量體:有大規模資料可應用
(c)軟體:更好的訓練方法,如反向傳播 Backpropagation**、正則化、梯度下降改良等
(**註:反向傳播於1980年代已出現,不過直至算力和數據跟上,也就是(a)&(b) 才派上用場。)
▪︎ 應用:奠基在深度神經網路,再加上現代技術手段,如專門設計的架構(CNN、RNN、Transformer 等),可用來處理影像、語音、語言等複雜任務。
▹神經網路(NN)與深度學習(DL)
▪︎ 結語:
在現今人工智慧的發展上,神經網路不可或缺。神經網路的核心步驟為「學習」,深度學習作為「神經網路」的體現,因為擁有多個隱藏層而謂之「深度」。而正因為更深層的結構,加上更強大的運算力,才使得神經網路有能力處理極為複雜任務,比如圖像、語音和文本這樣複雜的非結構化數據、複雜模式識別、自動學習抽象特徵...etc。
儘管如此,在人工智慧的發展應用上,局限與困難仍是有的,好比處理結構化數據,更適合以決策樹或線性迴歸等傳統演算法處理(效率、少量數據)。而更大的困難則來自於「可解釋性」。「隱藏層」如「黑盒子」,很難解釋它為何做出某個決策。這也使得需要高度透明的專業領域(ex金融、醫療)難以應用。
▹深度學習(DL)的應用

「深度學習」於監督式學習/非監督式學習/強化學習之應用 (最右欄)