大模型推論最佳化

更新於 2024/12/07發佈於 2024/12/07閱讀時間約 4 分鐘

前言

大型transformer模型已成為最近的主流，在處理各種不同的任務上都獲得了很好的結果。大型transformer功能強大，但在計算效能和記憶體方面都有極高的要求，因此大型transformer的訓練和使用成本非常高，這也造成使用transformer大規模解決真實世界任務時的一個大瓶頸。為什麼大型transformer模型的推理執行如此困難？除了最先進模型規模的增加外，還有兩個主要因素導致推理挑戰（Pope等人，2022年）：

佔用大量的記憶體。大型transformer在推理時需要在記憶體中同時存儲模型參數和中間狀態。例如，
- 在解碼時需要在記憶體中存儲KV快取記憶體；例如，對於批次大小為512和上下文長度為2048的情況，KV快取記憶體總計3TB，是模型大小的3倍。注意力機制的推理成本隨輸入資料長度呈平方成長。
低平行化程度。推理生成以回歸方式執行，使解碼過程難以同時執行。

在這篇文章中，我們將探討幾種使transformer推理更高效的方法。有些是通用的網路壓縮方法，而其他則是專門針對transformer架構的。

蒸餾法

知識蒸餾（KD；Hinton等人，2015年，Gou等人，2020年）是一種直接的方法，通過將預訓練的昂貴模型（「教師模型」）的內容轉移到較小、較便宜的模型（「學生模型」）中來加速推理。知識蒸餾法對於學生模型的建構方式沒有太多限制，除了需要與教師模型有相符的輸出空間來建構合適的學習目標。

一個早期成功的嘗試是DistilBERT（Sanh等人，2019年），它能夠將BERT的參數減少40%，同時在微調的任務上保持BERT 97%的性能，執行速度提高71%。DistilBERT的預訓練損失是軟蒸餾損失、監督訓練損失（即BERT的遮蔽語言模損失）和一個特殊的餘弦嵌入損失的組合，以對齊教師和學生之間的隱藏狀態向量。蒸餾可以很容易地與量化、剪枝或稀疏化技術結合，其中教師模型是原始的全精度、密集模型，而學生模型為了達到更高的稀疏度是量化的、剪枝的或修剪的模型。

量化法

對深度神經網路應用量化有兩種常見方法：

訓練後量化（PTQ）：首先將模型訓練至收斂，然後我們將其權重轉換為更低精度，無需進一步訓練。與訓練相比，這通常實施起來比較便宜。
量化感知訓練（QAT）：在預訓練或進一步微調期間應用量化。QAT能夠獲得更好的性能，但需要額外的計算資源和輸入具有代表性的訓練數據。

我們應該注意理論上最佳量化策略與硬體支援之間的差距。由於缺乏對某些類型矩陣乘法的GPU核心的支持（例如INT4 x FP16），並非所有的方法都能在實際推理中實現加速。

剪枝法

神經網路剪枝是通過修剪不重要的模型權重或連接來減少模型大小，同時保持模型容量。它可能需要或不需要重新訓練。另外剪枝可以是非結構化的或結構化的。

非結構化剪枝允許刪除任何權重或連接，因此不保留原始網路架構。非結構化剪枝通常不適用於現代體，也不會導致實際的推理加速。
結構化剪枝旨在保持密集矩陣乘法形式，其中某些元素為零。它們可能需要遵循某些模式限制以配合硬體核心支援。這裡我們專注於結構化剪枝，以在transformer模型中實現高稀疏性。

建構剪枝網路的常規工作流程有三個步驟：

訓練密集網路直至收斂；
剪枝網路以移除不需要的結構；
可選地重新訓練網路以恢復新權重的性能。

通過網路剪枝在密集模型中發現稀疏結構，同時稀疏網路仍能保持類似性能的想法，是受彩票假說[1]的啟發：隨機初始化的密集前饋網路包含一池子子網路，其中只有一個子集（稀疏網路）是「中獎彩票」，在單獨訓練時可以達到最佳性能。

Reference

https://arxiv.org/abs/1803.03635

1會員

35內容數

心繫正體中文的科學家，立志使用正體中文撰寫文章。此沙龍預計涵蓋各項資訊科技知識分享與學習心得

留言0

查看全部

發表第一個留言支持創作者！

Kiki的沙龍的其他內容

大型視覺模型

前言許多年前已經有許多研究使用影像處理方法來生成文字，如圖像描述和視覺問答。傳統上，這類系統依賴於物體檢測網絡作為視覺編碼器來捕捉視覺特徵，然後通過文字解碼器生成文字。鑑於大量現有文獻。這篇文章會專注於解決視覺任務的一種方法，即擴展預訓練的通用語言模型，使其能夠處理視覺信號。本文大致將這些視覺語

#深度學習 #人工智慧 #AI人工智慧

如何有效地使用大語言模型

隨著大語言模型的發展熱潮，如何有效地使用大語言模型成為大眾關心的話題。要學會使用大語言模型不能不了解提示工程 (Prompt Engineering)，提示工程也稱為上下文內提示，指的是如何與大型語言模型（Large Language Model, LLM）溝通以引導其行為達到預期結果的方法，而無需

#模型 #語言 #輸入

大語言模型淺析

時光回溯至2018年，自然語言處理（Natural Language Processing, NLP）領域開始有了驚人的進展。像OpenAI GPT和BERT這樣的大規模預訓練語言模型在解決各種不同的任務上取得了優異的表現。

#AI深度學習 #深度學習 #AI人工智慧

大型語言模型中的幻覺問題

大型語言模型(Large Language Model, LLM)中的幻覺通常指模型產生不真實、錯誤、不一致或無意義的內容。

#人工智慧 #AI人工智慧 #AI深度學習

以流為基礎的深度生成模型

以流為基礎的深度生成模型藉助正規化流這一強大的統計工具來解決密度估計這個困難問題。對 p(x) 的良好估計使得有效完成許多下游任務成為可能：取樣未觀察到但真實的新數據點（數據生成）、預測未來事件的稀有程度（密度估計）、推斷潛在變量、填補不完整的數據樣本等。

#機器學習 #人工智慧 #AI深度學習

擴散模型(Diffusion Models)簡介

擴散模型受非均衡熱力學啟發。非均衡熱力學定義了一個擴散步驟的馬可夫鏈，逐步向資料添加隨機資訊，然後學習如何逆轉擴散過程，從隨機資訊中建構所需的樣本資料。與變分自編碼器（VAE）或以流為基礎的模型不同，擴散模型是通過固定程序學習的，且其潛在變量具有高維度（與原始資料相同）。