筆記-深度學習論文閱讀:Identity Mappings in Deep Residual Networks

閱讀時間約 7 分鐘

前言

承上一篇筆記文章,繼續閱讀推薦的第二篇論文:Identity Mappings in Deep Residual Networks—Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。也是一樣的發表者,內容是對他們之前發表的Deep Residual Learning for Image Recognition—Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun,這篇論文提出更精進的版本。



正文

深度殘差網路(ResNets)由許多堆疊的"殘差單元"組成。每個單元(下圖(a),為上一篇論文提出;而下圖(b)為此篇論文提出)可以用一般形式表示(下下一張圖):

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

其中 xlxl+1 分別是第 l 個單元的輸入和輸出,而 F 是殘差函數。在上一篇論文中,h(xl) = xl 是一個恒等映射,f 是一個 ReLU 函數。在這篇論文中,Kaiming He等人通過專注於創建一條"直接"傳播信息的路徑來分析深度殘差網路——不僅在殘差單元內,而且貫穿整個網路。Kaiming He等人的推導顯示,如果 h(xl)f(yl) 都是恒等映射,則信號可以在前向和後向傳播中直接從一個單元傳播到任何其他單元。Kaiming He等人的實驗實證表明,當架構更接近上述兩個條件時,訓練會變得更容易。


這裡 Wl = {Wl,k|1≤k≤K} 是與第 l 個殘差單元相關的一組權重(和偏置),K 是一個殘差單元中的層數(在上一篇論文中,K 是 2 或 3)。F 表示殘差函數,例如上一篇論文中兩個 3×3 卷積層的堆疊。函數 f 是元素級相加之後的操作,在上一篇論文中,f 是 ReLU。函數 h 被設置為一個恆等映射:h(xl) = xl。如果 f 也是恆等映射:xl+1 ≡ yl,可以將上圖第二條方程式代入上圖第一條方程式裡得到:

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

遞迴地(xl+2 = xl+1 + F(xl+1, Wl+1) = xl + F(xl, Wl) + F(xl+1, Wl+1),等等),將得到:

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

對於任何更深的單元 L 和任何更淺的單元 l。方程式(4)展示了一些好的特性:(i) 任何更深單元 L 的特徵 xL 可以表示為任何更淺單元 l 的特徵 xl 加上一個殘差函數的和,表明模型在任何單元 Ll 之間是殘差形式。(ii) 任何深層單元 L 的特徵 xL,是所有前面殘差函數輸出的總和(加上 x0)。這與"普通網路"中特徵 xL 是一系列矩陣-向量乘積的情況形成對比。

方程式(4)也帶來了好的反向傳播特性。從反向傳播的鏈式法則中有:

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

方程式(5)表明梯度可以分解成兩個可加的項:等式最右邊的第一項,直接傳播信息而不考慮任何權重層,確保了信息能夠直接傳播回任何更淺的單元 l。第二項通過權重層傳播,這一項不會總是對所有 xl 為 -1。這意味著即使權重非常小,一層的梯度也不會消失。

方程式(4)和方程式(5)表明信號可以在任意單元之間直接傳播,既可以正向傳播,也可以反向傳播。方程式(4)的基礎是兩個恒等映射:(i) 恒等跳躍連接 h(xl) = xl,和 (ii) 條件是 f 是一個恒等映射。

這些直接傳播的信息流由第一張圖中的灰色箭頭表示。當這些灰色箭頭不涉及任何操作(除了加法)時,上述兩個條件成立,因此它們是"乾淨"的。在接下來的兩個部分中,Kaiming He等人分別探討這兩個條件的影響。


接著,Kaiming He等人進行修改恒等跳躍連接的實驗,變異分別為下圖:

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

實驗結果如下圖,Y軸為訓練損失指標:

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

結論是,如本文第一張圖中的灰色箭頭,捷徑連接是信息傳播的最直接路徑。對捷徑進行如上上圖的乘法操作(縮放、門控、1×1 卷積和 dropout)會阻礙信息傳播並導致優化問題,訓練損失比較如上圖。


接著,Kaiming He等人進行激活函數的實驗。若希望將 f 設置為恒等映射(下圖(c)、(d)、(e)),可以通過重新排列激活函數(ReLU 和/或 BN)來實現。實驗的變異如下圖:

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

對於上圖(d)和(e),通過兩種設計進行實驗:(i) 只有 ReLU 的預激活,(d);和 (ii) 全預激活,其中 BN 和 ReLU 都在權重層之前採用,(e)。而預激活,Kaiming He等人發展了一種不對稱形式,其中一個激活只影響 F 路徑,下圖(a)到(b):

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

實驗發現,當 BN 和 ReLU 都作為預激活使用時,結果顯著改善,如下圖(數值為分類錯誤率):

來源:https://arxiv.org/abs/1603.05027

來源:https://arxiv.org/abs/1603.05027

發現預激活的影響是雙重的。首先,與上一篇論文基準的 ResNet (上上上圖(a))相比,優化進一步簡化了,因為 f 是一個恆等映射。其次,使用 BN 作為預激活改善了模型的正則化效果。

優化的簡化:使用上一篇論文中的原始設計(上上上圖(a)),訓練誤差在訓練初期下降非常緩慢。對於 f = ReLU,如果信號是負的,那麼當有許多殘差單元時,這種效應會變得顯著。相反地,當 f 是一個恆等映射時,信號可以在任意兩個單元之間直接傳播。這篇論文的 1001 層網路非常快速地降低了訓練損失,表明了優化的成功。

減少過度擬合:在原始的殘差單元中(上上上圖(a)),儘管 BN 對信號進行了歸一化,但這很快被添加到快捷路徑中,因此合併後的信號並沒有被歸一化。然後,這個未歸一化的信號被用作下一個權重層的輸入。相反地,在我們的預激活版本中(上上上圖(e)),所有權重層的輸入都已經被歸一化。


此篇論文研究了深度殘差網路連接機制背後的傳播公式。推導表明,跳躍連接和激活對於使信息傳播平穩至關重要。實驗展示了可以輕鬆訓練並實現改進精度的 1000 層深度網路。



參考



小結

讀完了兩篇論文,覺得對殘差網路有比較了解了,接下來會配合書中的範例程式,實際動手玩玩看。然後想說的是,最近不是在忙工作就是在睡覺,沒有出現在方格子和各位格友互動不好意思(XD)。最後,繼續趕路,繼續留腳印(XD),週末快樂!

留言0
查看全部
發表第一個留言支持創作者!
柴郡貓姍蒂的沙龍 的其他內容
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
前言 在閱讀網路文章時,有看到說1X1的卷積層能夠升維、降維,不了解所以然,故來查找。:P 正文 卷積核尺寸為1X1的卷積層能夠達到降低和增加輸出的維度,是因為它能夠改變輸入數據的通道數量(depth),而不改變其空間維度(height和width),原理如下。 1X1卷積在每個空間位置
前言 對標題上的這兩個項目有疑惑,不知道它們返回的資料的不同;查找資料後記錄下來,讓自己以後可以回來翻閱。 正文 numpy.ndarray.flatten:返回攤平的一維array,可參考NumPy: numpy.ndarray.flatten() function,有示意圖 te
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,對一些看似基本,但是重要且會影響到之後實作的項目概念有點疑惑,覺得應該查清楚,所以搞懂後記錄下來,寫下這篇文章(應該說是筆記?)。 正文 下面這段程式碼: model = Sequential() model.add
前言 其實摸機器學習、深度學習也有一陣子了,雖然大致上都理解,不過有些細節若不是那麼清楚,我也沒仔細去弄懂。今天剛好在《強化式學習:打造最強 AlphaZero 通用演算法》這本書看到之前略過的幾個名詞,書中有解釋其背後代表的東西的功能,在此記錄下來,以後又忘掉時可回來查看。 正文 "激活
前言 最近開始讀《強化式學習:打造最強 AlphaZero 通用演算法》這本書,AlphaZero是AlphaGo的改良升級版,而AlphaGo打敗了世界頂尖圍棋棋士,這本書是在介紹AlphaZero使用的技術和演算法。這篇文章是筆記我在閱讀此書介紹"強化式學習"的篇幅時,遇到不懂的名詞解釋,上網
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
前言 在閱讀網路文章時,有看到說1X1的卷積層能夠升維、降維,不了解所以然,故來查找。:P 正文 卷積核尺寸為1X1的卷積層能夠達到降低和增加輸出的維度,是因為它能夠改變輸入數據的通道數量(depth),而不改變其空間維度(height和width),原理如下。 1X1卷積在每個空間位置
前言 對標題上的這兩個項目有疑惑,不知道它們返回的資料的不同;查找資料後記錄下來,讓自己以後可以回來翻閱。 正文 numpy.ndarray.flatten:返回攤平的一維array,可參考NumPy: numpy.ndarray.flatten() function,有示意圖 te
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,對一些看似基本,但是重要且會影響到之後實作的項目概念有點疑惑,覺得應該查清楚,所以搞懂後記錄下來,寫下這篇文章(應該說是筆記?)。 正文 下面這段程式碼: model = Sequential() model.add
前言 其實摸機器學習、深度學習也有一陣子了,雖然大致上都理解,不過有些細節若不是那麼清楚,我也沒仔細去弄懂。今天剛好在《強化式學習:打造最強 AlphaZero 通用演算法》這本書看到之前略過的幾個名詞,書中有解釋其背後代表的東西的功能,在此記錄下來,以後又忘掉時可回來查看。 正文 "激活
前言 最近開始讀《強化式學習:打造最強 AlphaZero 通用演算法》這本書,AlphaZero是AlphaGo的改良升級版,而AlphaGo打敗了世界頂尖圍棋棋士,這本書是在介紹AlphaZero使用的技術和演算法。這篇文章是筆記我在閱讀此書介紹"強化式學習"的篇幅時,遇到不懂的名詞解釋,上網
你可能也想看
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
三年前,我開始鑽研卡片盒筆記法,逐漸體會到做筆記最困難的部分,其實是看見資訊的內部連結。這種筆記方法不僅能幫助我們更好地組織資料,還能提升研究的效率和質量。 ▋理解資訊連結 卡片盒筆記法的核心在於理解和整理資訊之間的關聯性。這並非僅僅是將資訊羅列起來,而是需要將零散的資訊點連結成一個有機
Thumbnail
學術論文的段落比網路文章更為複雜。 利用筆記卡片的方式來解析學術論文能夠提煉出更具價值的知識。 此外,卡片化的學習方法可能對學術研究特別有用。
Thumbnail
入門一個新知識時,筆記卡片的構造方式十分重要。 雖然我也曾經排斥直接引用他人的段落,但摳過來的內容可以為我們提供初步的了解。 利用筆記卡片建立自己的知識架構,可助於更深入地學習。
Thumbnail
你開始使用Obsidian數位筆記了嗎? Obsidian目前已經達到一百萬次下載,十萬個Discord社群成員,一千個社群外掛的規模了! 已經有好多人都利用Obsidian管理自己的知識,更快速通往成功! 如果你是Obsidian筆記初學者,那麼你即將經歷的3個深度思考轉變! 轉變1 - 內容消化
Thumbnail
本書提供一套高效學習的方法論,幫助你在生活與職場提升自我價值 你可以學到以下幾個要點: 1. 牢記學過的東西 2. 加深理解的方法 3. 打造完整的知識體系 4.如何實踐在生活中
★心理的傷很難一眼看穿,如何在重大壓力下,仍可以保持想像力,並不是一件容易的事。理論上所涉及的深度心理學,借用精神分析的概念和經驗,對於那些不再只是「完整客體」的經驗,而是生命早年經歷生死攸關的心碎經驗下,當年焦慮和憂鬱的多重變型,至今仍如何流連忘返,並影響著疫情下的適應? ●「無助感」,字面上的意
●深度造假是一種「合成媒體」(synthetic media,又譯「合成內容」),代表媒體內容(包括圖片、影像和聲音)受到操控,或完全由人工智慧創造。AI技術讓媒體控制變得更輕鬆,也更容易了(例如Photoshop或Instagram的濾鏡功能)。
Thumbnail
关于 Notion 的使用教程,在 Notion 相关社区已经有不少精品内容。这篇文章中,无意于探讨过于高级的技术,而是为准备使用 Notion 以及 相关的 FlowUs 用户提供一个详实、全面的使用教程。 本文会不定期更新。 数字花园:Notion 优质资源汇总) 使用反思 辅助工具·软件联动
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
三年前,我開始鑽研卡片盒筆記法,逐漸體會到做筆記最困難的部分,其實是看見資訊的內部連結。這種筆記方法不僅能幫助我們更好地組織資料,還能提升研究的效率和質量。 ▋理解資訊連結 卡片盒筆記法的核心在於理解和整理資訊之間的關聯性。這並非僅僅是將資訊羅列起來,而是需要將零散的資訊點連結成一個有機
Thumbnail
學術論文的段落比網路文章更為複雜。 利用筆記卡片的方式來解析學術論文能夠提煉出更具價值的知識。 此外,卡片化的學習方法可能對學術研究特別有用。
Thumbnail
入門一個新知識時,筆記卡片的構造方式十分重要。 雖然我也曾經排斥直接引用他人的段落,但摳過來的內容可以為我們提供初步的了解。 利用筆記卡片建立自己的知識架構,可助於更深入地學習。
Thumbnail
你開始使用Obsidian數位筆記了嗎? Obsidian目前已經達到一百萬次下載,十萬個Discord社群成員,一千個社群外掛的規模了! 已經有好多人都利用Obsidian管理自己的知識,更快速通往成功! 如果你是Obsidian筆記初學者,那麼你即將經歷的3個深度思考轉變! 轉變1 - 內容消化
Thumbnail
本書提供一套高效學習的方法論,幫助你在生活與職場提升自我價值 你可以學到以下幾個要點: 1. 牢記學過的東西 2. 加深理解的方法 3. 打造完整的知識體系 4.如何實踐在生活中
★心理的傷很難一眼看穿,如何在重大壓力下,仍可以保持想像力,並不是一件容易的事。理論上所涉及的深度心理學,借用精神分析的概念和經驗,對於那些不再只是「完整客體」的經驗,而是生命早年經歷生死攸關的心碎經驗下,當年焦慮和憂鬱的多重變型,至今仍如何流連忘返,並影響著疫情下的適應? ●「無助感」,字面上的意
●深度造假是一種「合成媒體」(synthetic media,又譯「合成內容」),代表媒體內容(包括圖片、影像和聲音)受到操控,或完全由人工智慧創造。AI技術讓媒體控制變得更輕鬆,也更容易了(例如Photoshop或Instagram的濾鏡功能)。
Thumbnail
关于 Notion 的使用教程,在 Notion 相关社区已经有不少精品内容。这篇文章中,无意于探讨过于高级的技术,而是为准备使用 Notion 以及 相关的 FlowUs 用户提供一个详实、全面的使用教程。 本文会不定期更新。 数字花园:Notion 优质资源汇总) 使用反思 辅助工具·软件联动