筆記-深度學習論文閱讀:Deep Residual Learning for Image Recognition

閱讀時間約 5 分鐘

前言

在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,書中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Recognition—Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun,的翻譯及概要整理。



正文

深度卷積神經網路為圖像分類帶來了一系列突破,特徵的"層次"可以通過堆疊層數(深度)來豐富。但出現一個退化問題:隨著網路深度增加,準確率飽和後迅速下降,增加更多層到適當深度的模型反而導致更高的訓練錯誤。這表明並非所有系統都同樣容易優化。

考慮對一個較淺模型系統多增加一些層,新增層是恒等映射,其餘層從已學習的較淺模型複製。照理說深層模型不應產生比其淺層對應模型更高的訓練誤差,但實驗表明,目前的解算器無法找到與構建出很好或更好的解(或無法在可行時間內做到)。後來微軟研究院的Kaiming He等四位華人提出殘差網路模型—ResNet(Residual Nerual Network),以解決退化問題。


如下圖,將最後底層的映射結果表示為H(x),讓堆疊的非線性層擬合另一個映射F(x) := H(x)−x,原始映射則為F(x)+x,也就是H(x),假設優化殘差映射F(x)比優化原始的、無參考的映射更容易。如下圖,F(x)+x的公式可以通過帶有"捷徑連接"的前饋神經網路實現,捷徑連接僅執行恒等映射,並將其輸出加到堆疊層的輸出上,恒等捷徑連接不會增加額外的參數或計算複雜度,整個網路仍然可以通過SGD和反向傳播端到端訓練。

來源:https://arxiv.org/abs/1512.03385

來源:https://arxiv.org/abs/1512.03385

如上一段所述,假設多個非線性層可以漸近地逼近複雜函數,那麼等價於假設它們可以漸近地逼近殘差函數,即H(x)-x。所以,與其期望堆疊層逼近H(x),Kaiming He等人明確讓這些層逼近殘差函數F(x) := H(x)-x,原始函數因此變成F(x)+x。雖然兩種形式都應該能夠漸近地逼近所需的函數,但學習的難易程度可能不同。

同時間,"高速公路網路"提出具有門控功能的捷徑連接。這些門是數據依賴的且具有參數,而Kaiming He等人的恒等捷徑是無參數的。當門控捷徑"關閉"(接近零)時,高速公路網路中的層表示非殘差函數。相反,Kaiming He等人的公式始終學習殘差函數,恒等捷徑從不關閉,所有信息總是傳遞通過,並學習額外的殘差函數。結果,高速公路網路未能展示出極深度(例如,超過100層)帶來的準確性提升。


接下來Kaiming He等人研究投影捷徑。比較了三種選項:(A)使用零填充捷徑來增加維度,所有捷徑都是無參數的;(B)使用投影捷徑來增加維度,其他捷徑是恒等捷徑;(C)所有捷徑都是投影捷徑。結果顯示,這三種選項都明顯優於普通網路。選項B略優於選項A,因為選項A中的零填充維度確實沒有殘差學習。選項C比選項B略好,Kaiming He等人認為這是由於引入了許多投影捷徑帶來的額外參數。但選項A/B/C之間的差異很小,表明投影捷徑對解決退化問題並非必需。因此,為了減少記憶體/時間複雜度和模型大小,在實驗的剩餘部分不使用選項C。


Kaiming He等人的實現做法如下:圖像的較短邊隨機取樣在[256, 480]範圍內進行縮放增強,從圖像或其水平翻轉中隨機取樣224×224的裁剪,並減去每像素的均值。在每個卷積後和激活前採用批量歸一化(BN),並初始化權重,從頭開始訓練所有普通/殘差網路。使用迷你批量為256的SGD。學習率從0.1開始,當錯誤趨於平穩時減少10倍,模型訓練到60×104次迭代。使用0.0001的權重衰減和0.9的動量,不使用dropout。

實驗後,顯示極深殘差網路易於優化,但對應的"普通"網路(僅簡單堆疊層)在深度增加時表現出較高的訓練誤差;深度殘差網路可以輕鬆從大幅增加的深度中獲得準確性提升,產生比以前的網路更好的結果。

基於深度殘差網路,Kaiming He等人在ILSVRC & COCO 2015競賽的多個項目中獲得了第一名:ImageNet檢測、ImageNet定位、COCO檢測和COCO分割。



參考



小結

ChatGPT真的很好用,不管是翻譯還是查找資料,讓沒有讀過論文的我,在這第一次的經驗裡就能理解。繼續趕路,繼續留腳印(XD),週末快樂!

留言0
查看全部
發表第一個留言支持創作者!
柴郡貓姍蒂的沙龍 的其他內容
前言 在閱讀網路文章時,有看到說1X1的卷積層能夠升維、降維,不了解所以然,故來查找。:P 正文 卷積核尺寸為1X1的卷積層能夠達到降低和增加輸出的維度,是因為它能夠改變輸入數據的通道數量(depth),而不改變其空間維度(height和width),原理如下。 1X1卷積在每個空間位置
前言 對標題上的這兩個項目有疑惑,不知道它們返回的資料的不同;查找資料後記錄下來,讓自己以後可以回來翻閱。 正文 numpy.ndarray.flatten:返回攤平的一維array,可參考NumPy: numpy.ndarray.flatten() function,有示意圖 te
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,對一些看似基本,但是重要且會影響到之後實作的項目概念有點疑惑,覺得應該查清楚,所以搞懂後記錄下來,寫下這篇文章(應該說是筆記?)。 正文 下面這段程式碼: model = Sequential() model.add
前言 其實摸機器學習、深度學習也有一陣子了,雖然大致上都理解,不過有些細節若不是那麼清楚,我也沒仔細去弄懂。今天剛好在《強化式學習:打造最強 AlphaZero 通用演算法》這本書看到之前略過的幾個名詞,書中有解釋其背後代表的東西的功能,在此記錄下來,以後又忘掉時可回來查看。 正文 "激活
前言 最近開始讀《強化式學習:打造最強 AlphaZero 通用演算法》這本書,AlphaZero是AlphaGo的改良升級版,而AlphaGo打敗了世界頂尖圍棋棋士,這本書是在介紹AlphaZero使用的技術和演算法。這篇文章是筆記我在閱讀此書介紹"強化式學習"的篇幅時,遇到不懂的名詞解釋,上網
好久沒回來這裡了。因為是家中長女,父親身障,不得不回到工程師身份工作。於去年經歷了一份主管很奇怪的公司工作(可以看我之前的文章"廢文-2")離開後,在年底應徵上了一家公司的後端工程師工作,在裡面待一直到現在(還會繼續待下去啦XD)。 今天因為身體不舒服向公司請假,也思考了現在的狀況以及未來的方向。
前言 在閱讀網路文章時,有看到說1X1的卷積層能夠升維、降維,不了解所以然,故來查找。:P 正文 卷積核尺寸為1X1的卷積層能夠達到降低和增加輸出的維度,是因為它能夠改變輸入數據的通道數量(depth),而不改變其空間維度(height和width),原理如下。 1X1卷積在每個空間位置
前言 對標題上的這兩個項目有疑惑,不知道它們返回的資料的不同;查找資料後記錄下來,讓自己以後可以回來翻閱。 正文 numpy.ndarray.flatten:返回攤平的一維array,可參考NumPy: numpy.ndarray.flatten() function,有示意圖 te
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,對一些看似基本,但是重要且會影響到之後實作的項目概念有點疑惑,覺得應該查清楚,所以搞懂後記錄下來,寫下這篇文章(應該說是筆記?)。 正文 下面這段程式碼: model = Sequential() model.add
前言 其實摸機器學習、深度學習也有一陣子了,雖然大致上都理解,不過有些細節若不是那麼清楚,我也沒仔細去弄懂。今天剛好在《強化式學習:打造最強 AlphaZero 通用演算法》這本書看到之前略過的幾個名詞,書中有解釋其背後代表的東西的功能,在此記錄下來,以後又忘掉時可回來查看。 正文 "激活
前言 最近開始讀《強化式學習:打造最強 AlphaZero 通用演算法》這本書,AlphaZero是AlphaGo的改良升級版,而AlphaGo打敗了世界頂尖圍棋棋士,這本書是在介紹AlphaZero使用的技術和演算法。這篇文章是筆記我在閱讀此書介紹"強化式學習"的篇幅時,遇到不懂的名詞解釋,上網
好久沒回來這裡了。因為是家中長女,父親身障,不得不回到工程師身份工作。於去年經歷了一份主管很奇怪的公司工作(可以看我之前的文章"廢文-2")離開後,在年底應徵上了一家公司的後端工程師工作,在裡面待一直到現在(還會繼續待下去啦XD)。 今天因為身體不舒服向公司請假,也思考了現在的狀況以及未來的方向。
你可能也想看
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
三年前,我開始鑽研卡片盒筆記法,逐漸體會到做筆記最困難的部分,其實是看見資訊的內部連結。這種筆記方法不僅能幫助我們更好地組織資料,還能提升研究的效率和質量。 ▋理解資訊連結 卡片盒筆記法的核心在於理解和整理資訊之間的關聯性。這並非僅僅是將資訊羅列起來,而是需要將零散的資訊點連結成一個有機
Thumbnail
學術論文的段落比網路文章更為複雜。 利用筆記卡片的方式來解析學術論文能夠提煉出更具價值的知識。 此外,卡片化的學習方法可能對學術研究特別有用。
Thumbnail
入門一個新知識時,筆記卡片的構造方式十分重要。 雖然我也曾經排斥直接引用他人的段落,但摳過來的內容可以為我們提供初步的了解。 利用筆記卡片建立自己的知識架構,可助於更深入地學習。
Thumbnail
你開始使用Obsidian數位筆記了嗎? Obsidian目前已經達到一百萬次下載,十萬個Discord社群成員,一千個社群外掛的規模了! 已經有好多人都利用Obsidian管理自己的知識,更快速通往成功! 如果你是Obsidian筆記初學者,那麼你即將經歷的3個深度思考轉變! 轉變1 - 內容消化
Thumbnail
本書提供一套高效學習的方法論,幫助你在生活與職場提升自我價值 你可以學到以下幾個要點: 1. 牢記學過的東西 2. 加深理解的方法 3. 打造完整的知識體系 4.如何實踐在生活中
★心理的傷很難一眼看穿,如何在重大壓力下,仍可以保持想像力,並不是一件容易的事。理論上所涉及的深度心理學,借用精神分析的概念和經驗,對於那些不再只是「完整客體」的經驗,而是生命早年經歷生死攸關的心碎經驗下,當年焦慮和憂鬱的多重變型,至今仍如何流連忘返,並影響著疫情下的適應? ●「無助感」,字面上的意
●深度造假是一種「合成媒體」(synthetic media,又譯「合成內容」),代表媒體內容(包括圖片、影像和聲音)受到操控,或完全由人工智慧創造。AI技術讓媒體控制變得更輕鬆,也更容易了(例如Photoshop或Instagram的濾鏡功能)。
Thumbnail
关于 Notion 的使用教程,在 Notion 相关社区已经有不少精品内容。这篇文章中,无意于探讨过于高级的技术,而是为准备使用 Notion 以及 相关的 FlowUs 用户提供一个详实、全面的使用教程。 本文会不定期更新。 数字花园:Notion 优质资源汇总) 使用反思 辅助工具·软件联动
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
三年前,我開始鑽研卡片盒筆記法,逐漸體會到做筆記最困難的部分,其實是看見資訊的內部連結。這種筆記方法不僅能幫助我們更好地組織資料,還能提升研究的效率和質量。 ▋理解資訊連結 卡片盒筆記法的核心在於理解和整理資訊之間的關聯性。這並非僅僅是將資訊羅列起來,而是需要將零散的資訊點連結成一個有機
Thumbnail
學術論文的段落比網路文章更為複雜。 利用筆記卡片的方式來解析學術論文能夠提煉出更具價值的知識。 此外,卡片化的學習方法可能對學術研究特別有用。
Thumbnail
入門一個新知識時,筆記卡片的構造方式十分重要。 雖然我也曾經排斥直接引用他人的段落,但摳過來的內容可以為我們提供初步的了解。 利用筆記卡片建立自己的知識架構,可助於更深入地學習。
Thumbnail
你開始使用Obsidian數位筆記了嗎? Obsidian目前已經達到一百萬次下載,十萬個Discord社群成員,一千個社群外掛的規模了! 已經有好多人都利用Obsidian管理自己的知識,更快速通往成功! 如果你是Obsidian筆記初學者,那麼你即將經歷的3個深度思考轉變! 轉變1 - 內容消化
Thumbnail
本書提供一套高效學習的方法論,幫助你在生活與職場提升自我價值 你可以學到以下幾個要點: 1. 牢記學過的東西 2. 加深理解的方法 3. 打造完整的知識體系 4.如何實踐在生活中
★心理的傷很難一眼看穿,如何在重大壓力下,仍可以保持想像力,並不是一件容易的事。理論上所涉及的深度心理學,借用精神分析的概念和經驗,對於那些不再只是「完整客體」的經驗,而是生命早年經歷生死攸關的心碎經驗下,當年焦慮和憂鬱的多重變型,至今仍如何流連忘返,並影響著疫情下的適應? ●「無助感」,字面上的意
●深度造假是一種「合成媒體」(synthetic media,又譯「合成內容」),代表媒體內容(包括圖片、影像和聲音)受到操控,或完全由人工智慧創造。AI技術讓媒體控制變得更輕鬆,也更容易了(例如Photoshop或Instagram的濾鏡功能)。
Thumbnail
关于 Notion 的使用教程,在 Notion 相关社区已经有不少精品内容。这篇文章中,无意于探讨过于高级的技术,而是为准备使用 Notion 以及 相关的 FlowUs 用户提供一个详实、全面的使用教程。 本文会不定期更新。 数字花园:Notion 优质资源汇总) 使用反思 辅助工具·软件联动