大模型推論最佳化

更新於 發佈於 閱讀時間約 4 分鐘

前言


大型transformer模型已成為最近的主流,在處理各種不同的任務上都獲得了很好的結果。大型transformer功能強大,但在計算效能和記憶體方面都有極高的要求,因此大型transformer的訓練和使用成本非常高,這也造成使用transformer大規模解決真實世界任務時的一個大瓶頸。為什麼大型transformer模型的推理執行如此困難?除了最先進模型規模的增加外,還有兩個主要因素導致推理挑戰(Pope等人,2022年):

  1. 佔用大量的記憶體。大型transformer在推理時需要在記憶體中同時存儲模型參數和中間狀態。例如,
    • 在解碼時需要在記憶體中存儲KV快取記憶體;例如,對於批次大小為512和上下文長度為2048的情況,KV快取記憶體總計3TB,是模型大小的3倍。注意力機制的推理成本隨輸入資料長度呈平方成長。
  2. 低平行化程度。推理生成以回歸方式執行,使解碼過程難以同時執行。


在這篇文章中,我們將探討幾種使transformer推理更高效的方法。有些是通用的網路壓縮方法,而其他則是專門針對transformer架構的。


蒸餾法

知識蒸餾(KD;Hinton等人,2015年,Gou等人,2020年)是一種直接的方法,通過將預訓練的昂貴模型(「教師模型」)的內容轉移到較小、較便宜的模型(「學生模型」)中來加速推理。知識蒸餾法對於學生模型的建構方式沒有太多限制,除了需要與教師模型有相符的輸出空間來建構合適的學習目標。

一個早期成功的嘗試是DistilBERT(Sanh等人,2019年),它能夠將BERT的參數減少40%,同時在微調的任務上保持BERT 97%的性能,執行速度提高71%。DistilBERT的預訓練損失是軟蒸餾損失、監督訓練損失(即BERT的遮蔽語言模損失)和一個特殊的餘弦嵌入損失的組合,以對齊教師和學生之間的隱藏狀態向量。蒸餾可以很容易地與量化、剪枝或稀疏化技術結合,其中教師模型是原始的全精度、密集模型,而學生模型為了達到更高的稀疏度是量化的、剪枝的或修剪的模型。


量化法

對深度神經網路應用量化有兩種常見方法:

  1. 訓練後量化(PTQ):首先將模型訓練至收斂,然後我們將其權重轉換為更低精度,無需進一步訓練。與訓練相比,這通常實施起來比較便宜。
  2. 量化感知訓練(QAT):在預訓練或進一步微調期間應用量化。QAT能夠獲得更好的性能,但需要額外的計算資源和輸入具有代表性的訓練數據。

我們應該注意理論上最佳量化策略與硬體支援之間的差距。由於缺乏對某些類型矩陣乘法的GPU核心的支持(例如INT4 x FP16),並非所有的方法都能在實際推理中實現加速。


剪枝法

神經網路剪枝是通過修剪不重要的模型權重或連接來減少模型大小,同時保持模型容量。它可能需要或不需要重新訓練。另外剪枝可以是非結構化的或結構化的。

  1. 非結構化剪枝允許刪除任何權重或連接,因此不保留原始網路架構。非結構化剪枝通常不適用於現代體,也不會導致實際的推理加速。
  2. 結構化剪枝旨在保持密集矩陣乘法形式,其中某些元素為零。它們可能需要遵循某些模式限制以配合硬體核心支援。這裡我們專注於結構化剪枝,以在transformer模型中實現高稀疏性。


建構剪枝網路的常規工作流程有三個步驟:

  1. 訓練密集網路直至收斂;
  2. 剪枝網路以移除不需要的結構;
  3. 可選地重新訓練網路以恢復新權重的性能。

通過網路剪枝在密集模型中發現稀疏結構,同時稀疏網路仍能保持類似性能的想法,是受彩票假說[1]的啟發:隨機初始化的密集前饋網路包含一池子子網路,其中只有一個子集(稀疏網路)是「中獎彩票」,在單獨訓練時可以達到最佳性能。


Reference

  1. https://arxiv.org/abs/1803.03635
留言
avatar-img
留言分享你的想法!
avatar-img
Kiki的沙龍
3會員
45內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
Kiki的沙龍的其他內容
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
1. 參數使用方式 傳統大型模型(全連接 Transformer 模型): 激活全部參數: 每次處理輸入數據時,模型中的所有參數(例如權重和偏置)都會參與計算,無論輸入的特性或需求。 特點: 運算負擔大,因為無論輸入的複雜性或性質如何,模型都需要用所有的參數進行推理。 訓練和推理時需要更高
Thumbnail
1. 參數使用方式 傳統大型模型(全連接 Transformer 模型): 激活全部參數: 每次處理輸入數據時,模型中的所有參數(例如權重和偏置)都會參與計算,無論輸入的特性或需求。 特點: 運算負擔大,因為無論輸入的複雜性或性質如何,模型都需要用所有的參數進行推理。 訓練和推理時需要更高
Thumbnail
AI發展未遇天花板,算力與推理模型成長驅動未來突破 b. 文章重點摘要: 隨著人工智慧生態系統的成熟,AI模型需要更聰明的推理能力。OpenAI的o1模型以較小參數規模和更多資料量實現更高效推論。 黃仁勳指出,延長模型思考時間能提升回答品質,而提高算力則能加速生成高品質答案。 AI的成長遵循
Thumbnail
AI發展未遇天花板,算力與推理模型成長驅動未來突破 b. 文章重點摘要: 隨著人工智慧生態系統的成熟,AI模型需要更聰明的推理能力。OpenAI的o1模型以較小參數規模和更多資料量實現更高效推論。 黃仁勳指出,延長模型思考時間能提升回答品質,而提高算力則能加速生成高品質答案。 AI的成長遵循
Thumbnail
在測試中,大規模語言模型的平均正確率達到 81.4%,明顯高於人類專家的 63.4%。更重要的是,經過神經科學專業調適的模型(例如 BrainGPT),表現進一步提升。
Thumbnail
在測試中,大規模語言模型的平均正確率達到 81.4%,明顯高於人類專家的 63.4%。更重要的是,經過神經科學專業調適的模型(例如 BrainGPT),表現進一步提升。
Thumbnail
「最佳化」是很酷的觀念,因為現實世界中許多問題,並沒有嚴謹一致的公式解,但可以利用計算機高速運算能力,透過巧妙的演算法,迭代式反覆逼近最佳解,應用領域非常廣。若能多瞭解一點原理,一定可以提昇解決問題的能力。今天從網路上發現一堂手把手的教學課程,就來演練一下整個過程。期望徹底了解之後,後面可以
Thumbnail
「最佳化」是很酷的觀念,因為現實世界中許多問題,並沒有嚴謹一致的公式解,但可以利用計算機高速運算能力,透過巧妙的演算法,迭代式反覆逼近最佳解,應用領域非常廣。若能多瞭解一點原理,一定可以提昇解決問題的能力。今天從網路上發現一堂手把手的教學課程,就來演練一下整個過程。期望徹底了解之後,後面可以
Thumbnail
隨著大型語言模型興起,企業面臨著前所未有的機遇。本文章深入探討LLM的商用潛力,智慧客服、內容生成與決策優化等應用場景,並提供從模型選擇到部署的全方位指南。我們還將探討數據質量、模型微調及持續優化的重要性,為打算進入AI應用領域的企業提供實用建議。抓住這場AI革命的機遇,打造自己的AI應用王國!
Thumbnail
隨著大型語言模型興起,企業面臨著前所未有的機遇。本文章深入探討LLM的商用潛力,智慧客服、內容生成與決策優化等應用場景,並提供從模型選擇到部署的全方位指南。我們還將探討數據質量、模型微調及持續優化的重要性,為打算進入AI應用領域的企業提供實用建議。抓住這場AI革命的機遇,打造自己的AI應用王國!
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。然而,資料清理在這個過程中顯得至關重要。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。然而,資料清理在這個過程中顯得至關重要。
Thumbnail
本文探討了模型化思維的概念及其重要性,文章闡述了模型化思維如何幫助我們理解複雜世界、提高思考效率和決策品質。同時,文章也指出了模型化思維的局限性,並提供了在日常工作和生活中如何運用這種思維方式的建議。
Thumbnail
本文探討了模型化思維的概念及其重要性,文章闡述了模型化思維如何幫助我們理解複雜世界、提高思考效率和決策品質。同時,文章也指出了模型化思維的局限性,並提供了在日常工作和生活中如何運用這種思維方式的建議。
Thumbnail
本文探討了大型語言模型中的特殊現象,包括頓悟現象,大模型的隱藏知識引導,以及模型越大對某些問題的理解越偏離的U型曲線。文章強調,當模型不夠理想時,我們需要更好地引導模型或了解問題的本質,而非只是增加模型的大小。
Thumbnail
本文探討了大型語言模型中的特殊現象,包括頓悟現象,大模型的隱藏知識引導,以及模型越大對某些問題的理解越偏離的U型曲線。文章強調,當模型不夠理想時,我們需要更好地引導模型或了解問題的本質,而非只是增加模型的大小。
Thumbnail
Google 一直致力於透過機器學習改善自家翻譯系統的準確度,利用人工智慧的力量提升機器翻譯品質,並於今年八月發表新機器學習模型 Universal Transformer。隨著機器學習模型不斷演進,AI 處理翻譯時的邏輯和策略也與真人譯者越來越相似。 原文連結
Thumbnail
Google 一直致力於透過機器學習改善自家翻譯系統的準確度,利用人工智慧的力量提升機器翻譯品質,並於今年八月發表新機器學習模型 Universal Transformer。隨著機器學習模型不斷演進,AI 處理翻譯時的邏輯和策略也與真人譯者越來越相似。 原文連結
Thumbnail
在機器學習裡面,為了要追求更好的表現,我們除了要選出最適當的演算法來應對不同場景外,同時,在將原始資料蒐集好後,我們該如何從中萃取出重要且有用的資訊,是非常重要的一件事情,這就是所謂的”特徵工程”,今天我們就來針對這個主題談談吧...
Thumbnail
在機器學習裡面,為了要追求更好的表現,我們除了要選出最適當的演算法來應對不同場景外,同時,在將原始資料蒐集好後,我們該如何從中萃取出重要且有用的資訊,是非常重要的一件事情,這就是所謂的”特徵工程”,今天我們就來針對這個主題談談吧...
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News