筆記-深度學習論文閱讀:Identity Mappings in Deep Residual Networks

更新於 發佈於 閱讀時間約 7 分鐘

前言

承上一篇筆記文章,繼續閱讀推薦的第二篇論文:Identity Mappings in Deep Residual Networks—Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。也是一樣的發表者,內容是對他們之前發表的Deep Residual Learning for Image Recognition—Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun,這篇論文提出更精進的版本。



正文

深度殘差網路(ResNets)由許多堆疊的"殘差單元"組成。每個單元(下圖(a),為上一篇論文提出;而下圖(b)為此篇論文提出)可以用一般形式表示(下下一張圖):

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

其中 xlxl+1 分別是第 l 個單元的輸入和輸出,而 F 是殘差函數。在上一篇論文中,h(xl) = xl 是一個恒等映射,f 是一個 ReLU 函數。在這篇論文中,Kaiming He等人通過專注於創建一條"直接"傳播信息的路徑來分析深度殘差網路——不僅在殘差單元內,而且貫穿整個網路。Kaiming He等人的推導顯示,如果 h(xl)f(yl) 都是恒等映射,則信號可以在前向和後向傳播中直接從一個單元傳播到任何其他單元。Kaiming He等人的實驗實證表明,當架構更接近上述兩個條件時,訓練會變得更容易。


這裡 Wl = {Wl,k|1≤k≤K} 是與第 l 個殘差單元相關的一組權重(和偏置),K 是一個殘差單元中的層數(在上一篇論文中,K 是 2 或 3)。F 表示殘差函數,例如上一篇論文中兩個 3×3 卷積層的堆疊。函數 f 是元素級相加之後的操作,在上一篇論文中,f 是 ReLU。函數 h 被設置為一個恆等映射:h(xl) = xl。如果 f 也是恆等映射:xl+1 ≡ yl,可以將上圖第二條方程式代入上圖第一條方程式裡得到:

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

遞迴地(xl+2 = xl+1 + F(xl+1, Wl+1) = xl + F(xl, Wl) + F(xl+1, Wl+1),等等),將得到:

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

對於任何更深的單元 L 和任何更淺的單元 l。方程式(4)展示了一些好的特性:(i) 任何更深單元 L 的特徵 xL 可以表示為任何更淺單元 l 的特徵 xl 加上一個殘差函數的和,表明模型在任何單元 Ll 之間是殘差形式。(ii) 任何深層單元 L 的特徵 xL,是所有前面殘差函數輸出的總和(加上 x0)。這與"普通網路"中特徵 xL 是一系列矩陣-向量乘積的情況形成對比。

方程式(4)也帶來了好的反向傳播特性。從反向傳播的鏈式法則中有:

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

方程式(5)表明梯度可以分解成兩個可加的項:等式最右邊的第一項,直接傳播信息而不考慮任何權重層,確保了信息能夠直接傳播回任何更淺的單元 l。第二項通過權重層傳播,這一項不會總是對所有 xl 為 -1。這意味著即使權重非常小,一層的梯度也不會消失。

方程式(4)和方程式(5)表明信號可以在任意單元之間直接傳播,既可以正向傳播,也可以反向傳播。方程式(4)的基礎是兩個恒等映射:(i) 恒等跳躍連接 h(xl) = xl,和 (ii) 條件是 f 是一個恒等映射。

這些直接傳播的信息流由第一張圖中的灰色箭頭表示。當這些灰色箭頭不涉及任何操作(除了加法)時,上述兩個條件成立,因此它們是"乾淨"的。在接下來的兩個部分中,Kaiming He等人分別探討這兩個條件的影響。


接著,Kaiming He等人進行修改恒等跳躍連接的實驗,變異分別為下圖:

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

實驗結果如下圖,Y軸為訓練損失指標:

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

結論是,如本文第一張圖中的灰色箭頭,捷徑連接是信息傳播的最直接路徑。對捷徑進行如上上圖的乘法操作(縮放、門控、1×1 卷積和 dropout)會阻礙信息傳播並導致優化問題,訓練損失比較如上圖。


接著,Kaiming He等人進行激活函數的實驗。若希望將 f 設置為恒等映射(下圖(c)、(d)、(e)),可以通過重新排列激活函數(ReLU 和/或 BN)來實現。實驗的變異如下圖:

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

對於上圖(d)和(e),通過兩種設計進行實驗:(i) 只有 ReLU 的預激活,(d);和 (ii) 全預激活,其中 BN 和 ReLU 都在權重層之前採用,(e)。而預激活,Kaiming He等人發展了一種不對稱形式,其中一個激活只影響 F 路徑,下圖(a)到(b):

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

實驗發現,當 BN 和 ReLU 都作為預激活使用時,結果顯著改善,如下圖(數值為分類錯誤率):

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

發現預激活的影響是雙重的。首先,與上一篇論文基準的 ResNet (上上上圖(a))相比,優化進一步簡化了,因為 f 是一個恆等映射。其次,使用 BN 作為預激活改善了模型的正則化效果。

優化的簡化:使用上一篇論文中的原始設計(上上上圖(a)),訓練誤差在訓練初期下降非常緩慢。對於 f = ReLU,如果信號是負的,那麼當有許多殘差單元時,這種效應會變得顯著。相反地,當 f 是一個恆等映射時,信號可以在任意兩個單元之間直接傳播。這篇論文的 1001 層網路非常快速地降低了訓練損失,表明了優化的成功。

減少過度擬合:在原始的殘差單元中(上上上圖(a)),儘管 BN 對信號進行了歸一化,但這很快被添加到快捷路徑中,因此合併後的信號並沒有被歸一化。然後,這個未歸一化的信號被用作下一個權重層的輸入。相反地,在我們的預激活版本中(上上上圖(e)),所有權重層的輸入都已經被歸一化。


此篇論文研究了深度殘差網路連接機制背後的傳播公式。推導表明,跳躍連接和激活對於使信息傳播平穩至關重要。實驗展示了可以輕鬆訓練並實現改進精度的 1000 層深度網路。



參考



小結

讀完了兩篇論文,覺得對殘差網路有比較了解了,接下來會配合書中的範例程式,實際動手玩玩看。然後想說的是,最近不是在忙工作就是在睡覺,沒有出現在方格子和各位格友互動不好意思(XD)。最後,繼續趕路,繼續留腳印(XD),週末快樂!

留言
avatar-img
留言分享你的想法!
avatar-img
柴郡貓姍蒂的沙龍
48會員
25內容數
2025/01/04
前言 最近在研究時間序列的預測,除了上課,也有在Medium上看文章,學到一些知識,除了自己做筆記記錄,也分享給大家。本篇筆記為翻譯統整:Neural Network (MLP) for Time Series Forecasting in Practice—Daniel J. TOTH,這篇Me
2025/01/04
前言 最近在研究時間序列的預測,除了上課,也有在Medium上看文章,學到一些知識,除了自己做筆記記錄,也分享給大家。本篇筆記為翻譯統整:Neural Network (MLP) for Time Series Forecasting in Practice—Daniel J. TOTH,這篇Me
2024/10/09
前言 跟上一篇文章一樣,都是看到陌生的演算法後,去搜尋資料記錄成文章。 正文 在強化式學習中,策略(Policy)指的是代理人根據目前的狀態決定下一個動作的方針,具體來說就是在某個狀態下採取某個動作的機率。Policy Gradient的目的是找到一個最優策略,使得整個任務的回報值最大化。
2024/10/09
前言 跟上一篇文章一樣,都是看到陌生的演算法後,去搜尋資料記錄成文章。 正文 在強化式學習中,策略(Policy)指的是代理人根據目前的狀態決定下一個動作的方針,具體來說就是在某個狀態下採取某個動作的機率。Policy Gradient的目的是找到一個最優策略,使得整個任務的回報值最大化。
2024/10/05
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》一書時,對一些沒有聽過的演算法感到陌生,基於打基礎或是增廣見聞的念頭下,上網或問ChatGPT,搜尋了一些資料,整理並紀錄而成這篇文章。 正文 下面說的兩種選擇策略方法用來解決類似多臂拉霸機(Multi-Armed Ban
2024/10/05
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》一書時,對一些沒有聽過的演算法感到陌生,基於打基礎或是增廣見聞的念頭下,上網或問ChatGPT,搜尋了一些資料,整理並紀錄而成這篇文章。 正文 下面說的兩種選擇策略方法用來解決類似多臂拉霸機(Multi-Armed Ban
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News