網路裁減（Network Pruning）和解構樂透彩卷假說

2025/02/25 更新2021/02/26 發佈閱讀 18 分鐘

Pruning overview

1997年 LeCun et al 發表 Optimal Brain Damage （OBD）論文，隨後 1993 年 Hassibi & Stork 發表另一篇相近的論文 Optimal Brain Surgeon。這兩篇論文都是討論類神經網路裁減。網路裁減可以幫助網路稀疏化，使用較小的網路來記憶訓練實例，在模型表現不下降過多的前提下，避免佔用過大的記憶體等等的好處。網路裁減在實踐上可以應用在權重（weights），偏移（bias）和啟動函示（activations）。然而，因為偏移的數目不大，對輸出又有決定性的影響，通常不會成為網路裁減的對象。而，啟動函式則是利用 ReLU 啟動函示，將小於零的值直接設為零，達到啟動函式稀疏化的效果。所以，網路裁減多半都是針對權重的大小（magnitude），設定一個門檻值，應用二元條件，將欲裁減掉或小於門檻值的權重設為零，欲留下的或超過門檻值的權重設為一。

兩篇文章都是使用二次偏微的資訊對類神經網路裡的個別權重做裁減。其中 OBD 一文使用 Hessian 的對角元素和參數擾動的方式來計算每一個參數的 saliency score ，並根據每個參數的 saliency score 對大型的類神經網路做裁減。裁減的目的為找到一個等價的小型網路，耗費較少的計算資源。使用裁減來產生精簡版的模型，且表現仍維持一樣水平，似乎有點難以想像。但因為在一開始訓練的模型通常是 over-parameterized 的大型網路，在網絡間充滿了重複且非必需的權重，透過裁減，可以去除這些重複的權重，而讓真正重要的網路權重執行工作。

除此之外，基於 Minimum Description Length (MDL) 理論，愈小的網路可以用最少但最重要的 bit 數目 encode feature，因此能夠藉著裁減增加網路的泛化能力，以及使用較少的訓練實例。在當時，計算能力還不足以執行大型網路，所以裁減網路以符合當時硬體計算能力。直到今日，裁減網路仍有相同的應用，如希望能在 embedded system 上執行大型的模型。現行壓縮網路的方法包括了，low-rank approximation of weights，weight quantization，knowledge distillation 和 network pruning。其中，以 network pruning 的結果較易達到原模型的 SOTA（state-of-the-art）。

從是否執行 fine-tuning，網路裁減可分為 one-shot pruning 和 iterative pruning。 One-shot pruning 是對已訓練完的模型做一次性裁減和 retraining。而 iterative pruning 則是以一層一層的方式裁減並做 re-training，也就是 fine-tuning 網路的權重。雖然 one-shot pruning 通常可以達到相當不錯甚至於兩倍的權重參數縮減，而不至於讓模型表現下降，但是 iterative pruning 通常可以達成更高的稀疏程度以及更好的表現。

若從是否進行有結構性的裁減，網路裁減演算法可以分為 element-wise pruning 和 structure pruning。前者不考慮網路的架構，將每一個權重視為獨立的個體，單獨裁減。而後者，則是將網路的架構考慮在內，有結構性的裁剪掉屬於同一結構的權重，比如說對 convolution network 做 filter pruning 即是裁減掉一整個 filter 相關的權重包括相連的 feature maps。這麼做的好處在於不會產生稀疏連結，因而需要特別的函式庫支援。

至於對於使用裁減演算法來壓縮模型的做法，2016 年由 Han et al 發表 “Deep Compression” pipeline 來使透過裁減而達到壓縮網路的流程標準化。

Deep Compression Model

Deep Compression pipeline 包括三個步驟，分別是：裁減，network quantization and weight sharing 和 Huffman encoding。下圖，就是這三個步驟的細節流程圖。

在裁減上，Deep Compression 採用 iterative unstructure pruning，並可達到九到十三倍的壓縮率。

在 network quantization and weight sharing 上，作者先使用 K-Means 方法對權重做 clustering，產生 code book 後，再將權重分配到相對應的 cluster 裡，完成 weight quantization 和 sharing。上圖中，每一個 cluster 被塗上不同的顏色，總共有四個不同的 clusters 和對應的 centroids，權重被分配到同一個 cluster 裡會共享centroid 的權重。在 back propagation 時，梯度計算也會根據不同的 cluster，對共享的權重做加總後，乘上學習率（圖中以 lr 表示）後更新。在這一個步驟中，二十七到三十一倍的壓縮率可以達成。

最後使用 Huffman encoding 來壓縮 weights 和 indices，Huffman 是一種不定長度的 encoding 方法，主要是依賴來源符號的出現率，將最常出現的來源符號用最少的位元數來 encode。在這個階段可達成三十五到四十九倍的壓縮率。

了解了網路裁減在模型壓縮上的應用，接下來用樂透彩卷假說的實例說明網路裁減對類神經網路訓練的影響。

解構 Lottery Ticket Ｈypothesis

2019 年發表的樂透彩卷假說（Lottery Ticket Ｈypothesis）的論文[1]。在該論文中，作者們進行一個實驗，進而發現在大型類神經網路中內嵌了一個小的子網路。透過巧妙的重新設定初始值以及基於權重選擇條件，應用遮罩建構出一個稀疏網路後，作者們發現該小型網路在一定的訓練迭代數目後可以達到與原先大型網路一樣的表現。

在這個實驗中，透過權重選擇條件而被選擇做為小型網路中可訓練權重，因為一開始的初始值設定正確，可以看做贏得樂透彩卷般幸運，所以才又被稱為樂透彩卷假說（Lottery Ticket Ｈypothesis）。為了能夠解釋這個「幸運」的小網路的形成，許多的研究者分別提出他們各自的實驗。

第一篇 Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask [2]，給予樂透彩卷假說的實驗步驟更謹慎的定義。在他們的定義中尋找樂透權重的步驟如下：

給定一類神經網路架構，隨機初始權重。並設定權重選擇遮罩（Mask）為 1，表示所有的權重都會被選入首回合的訓練中。
Mask Criterion：利用 Early Stopping 的方式決定首回合的訓練迭代數目。依據一定的遮罩條件（Mask Criterion）選取「樂透權重」。通常 Mask Criterion 是權重初始值和訓練停止時的權重最佳值。在樂透彩卷理論中所採用的是前 top p% 的權重值，這些權重值相對應的遮罩值會被設為 1。
Mask-1 actions：這個步驟是決定當遮罩被設為 1 的權重該採取的行為。這些權重即是所謂的贏得彩卷權重。這些權重會重設為初始值，並在新一回的訓練中，重新訓練。
Mask-0 actions：這個步驟是決定當遮罩被設為 0 的權重該採取的行為。這些權重即是被裁減掉的權重。這些權重會重設為 0，並且不會在新一回的訓練中被更新。

上述的步驟僅執行一次（one shot pruning）的網路裁減（network pruning），若要進行多次裁減，則重複以上步驟即可。

這個簡單的程序，使最佳化的研究者感到迷惑，於是隨後又有許多相關論文被發表，在參考資料 [2] 的作者們，則是嘗試了比 [1] 更多變異的條件而發現三個主要的元素能找到與完整網路相等表現的稀疏子網路。這三個要素誠如論文的名稱，分別是：

Zeros: 有無將 Mask-0 actions 在重新訓練時設為 0，在恢復子網路是一個很重要的 Mask-0 actions 條件。若將 Mask-0 actions 設為原權重初始值，並限制他們在訓練的過程中更新，除非在相當大的權重都被裁減的情況，否則則會導致子網路的表現不盡理想。
Signs：將 Mask-1 action 改變為權重須重設為一個正負號相同（Sign）的常數而非最初的初始值。該實驗發現，即使這個類別的權重沒被重設為最初初始值，僅僅只是正負號相同，也可提高子網路的表現。
Super Mask：在 Mask-0 actions 的實驗中，[2] 的作者們發現藉著給予特定權重適合的遮罩值，單單藉著使用遮罩，便可使未訓練的網路獲得比隨機更好的表現。他們稱呼這個可以學習的遮罩為 Super Mask「註一」學習的部分，Super Mask 先利用 sigmoid 來產生 Bernoulli 分布的 p 參數，遮罩的部分則由前述產生 Bernoulli 分布來決定。他們發現使用可以學習的 Super Mask 和對權重進行 Dynamic Weight Rescaling （乘上所有權重和遮罩值為 1 的比值），其表現和未使用遮罩從頭學起的網路相等。確實的數據，請見下表。

然而樂透彩卷假說也非無人敢挑戰。下一篇介紹的文章將會提供與彩卷假說相反的實驗資料。

重製 Lottery Ticket 實驗結果

在 [3] 中所裁減的都是電腦視覺常用的網路結構，包括了 VGG，ResNet 和 DesnseNet。這些架構，除了最後一層是 fully-connected layer 外，都是擁有 fully convolutionary network。而主要裁減的對象是每一個 convolution layer 的 channel 參數。

所使用的訓練資料包括了 MNIST, CIFAR 和 ImageNet 。至於在參數的調整上，除了採用 He’s Initialization，多是依照論文所紀錄的參數值來調整，因此在 Rethinking 論文 [3] 中使用了一個稍大的 learning rate 初始值 — 0.1。然而在 Lottery Ticket 的論文中，使用的網絡架構為小於六層的 shallow 網路，在資料上則只取 small-scale 的資料集，如 MNIST 和 CIFAR。在訓練上，Lottery Ticket 的論文則使用 Adam，以及一個較小的預設 learning rate 初始值 — 0.01。

Rethinking 論文 [3] 作者認為 Lottery Ticket 的論文結果，是因為使用較小的 learning rate 而使學習結果仍依賴初始值的關係。換句話說，就是 Lottery Ticket 的論文，在裁減之前所達到的是 sub-optimal 結果。本文作者更指出，在 Lottery Ticket 的原論文 [1] 中，他們也提到，當使用 ResNet-18/VGG 網路架構以及一個較大的 learning rate （Section 5）無法找到 winning tickets。

論文的比較結果如下：

上圖為 Rethinking 論文 [3] 的 Figure 7。圖中數據皆使用 CIFAR-10 資料集，針對 VGG-16 和 ResNet-50 兩個 CNN 架構做裁減。訓練中，對每一個結果會重複進行五遍，並取平均值。在本實驗中，作者們使用兩個 learning rate 初始值， 0.1（ Rethinking 論文）和 0.01 （Lottery Ticket 中使用），並且報告裁減網路在兩種不同的重新訓練方式，隨著參數的裁減比率變化的正確度。這兩種重新訓練方式為 Winning Tickets 和 Random Init。 Winning Ticket 保留被裁減網路的權重初始值後，再重新訓練的正確率。 Random Init 則是任意初始被裁減網路的權重後，再重新訓練的正確率。裁減的方式都是 Unstructured Pruning，但分為 Iterative pruning （上）或 One-shot pruning （下）。

作者們發現，當使用較小的 learning rate （虛線，紅色為任意初始，藍色為保留 Winning Tickets 的初始值），除了 ResNet -50 的尾端，高於 80% 的參數裁減，訓練結果都為 sub-optimal，或低於較大的 learning rate （實線）。

在小的 learning rate，比較容易看到 Winning Tickets 的正確率高於 Random Init，而在大的 learning rate，在某些裁剪比率中，Random Init 要較 Winning Ticket 佳，但大多數兩者則沒有太大的差別。

從與 Lottery Ticket 論文的結果比較，Rethinking 論文 [3] 作者認為 Winning Ticket 的結果是因為使用較小的 learning rate，造成對初始值依賴的現象。其次，Rethinking 論文 [3] 作者認為網路的結構對重新訓練一個被裁減網路重要，而非網路的權重。

註釋：

註一：原文為 “masks that can produce better-than-chance accuracy without training of the underlying weights”

參考資料：

[1] The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks（英，論文）
[2] Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask （英，論文）
[3] Rethinking the Value of Network Pruning（英，論文）
[4] Optimal Brain Damage （英，論文）
[5] Learning both Weights and Connections for Efficient Neural Networks （英，論文）
[6] Deep Compression （英，論文）
[7] Pruning Filters for efficient convnets （英，論文）
[8] Neural Network Distiller（英，API 文件）

#lotterytickethypothesis

#類神經網路

#neuralnetwork

Rene Wang的沙龍翻滾吧！駭客女孩！給門外漢們的深度學習

留言

留言分享你的想法！

Rene Wang的沙龍

70會員

35內容數

<p>專為年輕的女孩設計的科學／資訊科技寫作計畫，希望讓每位女孩在體脂肪、青春痘與暗戀對象之外，還能找到新的生活樂趣。</p>

Rene Wang的沙龍的其他內容

2021/03/19

[探索] 語言模型基礎：Subword algorithms

一個好的自然語言模型，若出現了語言模型的 vocabulary set 未曾收錄的單字，語言模型就會產生 Out-of-Vocabulary (OOV)。本文介紹 subword algorithms 介於 word-level 和 character-level 解決 OOV 的方法。

2021/03/19

[探索] 語言模型基礎：Subword algorithms

2021/01/08

[探索] 使用 Mixture of Experts 建立多任務學習框架

多任務學習指的是使用多個相關的任務目標（Multiple objectives）來學習共享的表示方法。在這篇文章中，我們會介紹 google 的 youtube recommender 系統就是利用 Multi-gate Mixture of Experts 來達成多目標多任務學習的方式。

2021/01/08

[探索] 使用 Mixture of Experts 建立多任務學習框架

2020/12/16

[探索] 門外漢的梯度下降變奏曲（下）

連同上兩篇文章，我們介紹了機械學習裡的基石，並踩著這些基石了解了改變資料餵送方式，以及動態改變學習率或在更新項中加入動量的方法。我們可以看到這些梯度下降的變化，主要是解決兩個問題：梯度震盪和非最佳的局部最小值造成學習停滯不前的問題。在這篇文章中，我們著重動量和 Adam 的方法來達成克服以上的問題。

2020/12/16

你可能也想看

雙11於許多人而言，不只是單純的折扣狂歡，更是行事曆裡預定的，對美好生活的憧憬。錢錢沒有不見，它變成了快樂，跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子！這次格編突擊辦公室，也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕，「加入購物車」的瞬間，藏著哪些靈感，或是對美好生活的想像？

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

Chloe小窩

租屋整理控必看 | 雙11收納好物開箱 × 蝦皮分潤計畫

雙11購物節準備開跑，蝦皮推出超多優惠，與你分享實際入手的收納好物，包括貨櫃收納箱、真空收納袋、可站立筆袋等，並分享如何利用蝦皮分潤計畫，一邊購物一邊賺取額外收入，讓你買得開心、賺得也開心！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

Chloe小窩

租屋整理控必看 | 雙11收納好物開箱 × 蝦皮分潤計畫

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

邊境牧羊犬的觀察筆記

開箱｜我為新家買的 5 樣家居好物！蝦皮購物實用選品

分享個人在新家裝潢後，精選 5 款蝦皮上的實用家居好物，包含客製化層架、MIT 地毯、沙發邊桌、分類垃圾桶及寵物碗架，從尺寸、功能到價格都符合需求，並提供詳細開箱心得與購買建議。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

邊境牧羊犬的觀察筆記

開箱｜我為新家買的 5 樣家居好物！蝦皮購物實用選品

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

技術PM路易斯的沙龍

[AI小學堂(二)]神經網路是什麼? 淺談深度學習的神經網路Neural Network的架構

在我的上一篇文章中，我們提到了人工智慧 & 機器學習 & 深度學習跟神經網路的關係，我們也了解到了所謂的深度學習是一種基於神經網路上的機器學習方法。那麼神經網路到底是什麼呢? 我們上一篇文章裡面提到的神經網路的層Layer究竟是什麼呢? 到底為什麼神經網路需要這麼多的神經元(Neurons)跟層數呢

#DeepLearning#AI#neuralnetwork

2023/05/30