大模型推論最佳化

更新於 發佈於 閱讀時間約 4 分鐘

前言


大型transformer模型已成為最近的主流,在處理各種不同的任務上都獲得了很好的結果。大型transformer功能強大,但在計算效能和記憶體方面都有極高的要求,因此大型transformer的訓練和使用成本非常高,這也造成使用transformer大規模解決真實世界任務時的一個大瓶頸。為什麼大型transformer模型的推理執行如此困難?除了最先進模型規模的增加外,還有兩個主要因素導致推理挑戰(Pope等人,2022年):

  1. 佔用大量的記憶體。大型transformer在推理時需要在記憶體中同時存儲模型參數和中間狀態。例如,
    • 在解碼時需要在記憶體中存儲KV快取記憶體;例如,對於批次大小為512和上下文長度為2048的情況,KV快取記憶體總計3TB,是模型大小的3倍。注意力機制的推理成本隨輸入資料長度呈平方成長。
  2. 低平行化程度。推理生成以回歸方式執行,使解碼過程難以同時執行。


在這篇文章中,我們將探討幾種使transformer推理更高效的方法。有些是通用的網路壓縮方法,而其他則是專門針對transformer架構的。


蒸餾法

知識蒸餾(KD;Hinton等人,2015年,Gou等人,2020年)是一種直接的方法,通過將預訓練的昂貴模型(「教師模型」)的內容轉移到較小、較便宜的模型(「學生模型」)中來加速推理。知識蒸餾法對於學生模型的建構方式沒有太多限制,除了需要與教師模型有相符的輸出空間來建構合適的學習目標。

一個早期成功的嘗試是DistilBERT(Sanh等人,2019年),它能夠將BERT的參數減少40%,同時在微調的任務上保持BERT 97%的性能,執行速度提高71%。DistilBERT的預訓練損失是軟蒸餾損失、監督訓練損失(即BERT的遮蔽語言模損失)和一個特殊的餘弦嵌入損失的組合,以對齊教師和學生之間的隱藏狀態向量。蒸餾可以很容易地與量化、剪枝或稀疏化技術結合,其中教師模型是原始的全精度、密集模型,而學生模型為了達到更高的稀疏度是量化的、剪枝的或修剪的模型。


量化法

對深度神經網路應用量化有兩種常見方法:

  1. 訓練後量化(PTQ):首先將模型訓練至收斂,然後我們將其權重轉換為更低精度,無需進一步訓練。與訓練相比,這通常實施起來比較便宜。
  2. 量化感知訓練(QAT):在預訓練或進一步微調期間應用量化。QAT能夠獲得更好的性能,但需要額外的計算資源和輸入具有代表性的訓練數據。

我們應該注意理論上最佳量化策略與硬體支援之間的差距。由於缺乏對某些類型矩陣乘法的GPU核心的支持(例如INT4 x FP16),並非所有的方法都能在實際推理中實現加速。


剪枝法

神經網路剪枝是通過修剪不重要的模型權重或連接來減少模型大小,同時保持模型容量。它可能需要或不需要重新訓練。另外剪枝可以是非結構化的或結構化的。

  1. 非結構化剪枝允許刪除任何權重或連接,因此不保留原始網路架構。非結構化剪枝通常不適用於現代體,也不會導致實際的推理加速。
  2. 結構化剪枝旨在保持密集矩陣乘法形式,其中某些元素為零。它們可能需要遵循某些模式限制以配合硬體核心支援。這裡我們專注於結構化剪枝,以在transformer模型中實現高稀疏性。


建構剪枝網路的常規工作流程有三個步驟:

  1. 訓練密集網路直至收斂;
  2. 剪枝網路以移除不需要的結構;
  3. 可選地重新訓練網路以恢復新權重的性能。

通過網路剪枝在密集模型中發現稀疏結構,同時稀疏網路仍能保持類似性能的想法,是受彩票假說[1]的啟發:隨機初始化的密集前饋網路包含一池子子網路,其中只有一個子集(稀疏網路)是「中獎彩票」,在單獨訓練時可以達到最佳性能。


Reference

  1. https://arxiv.org/abs/1803.03635
avatar-img
0會員
33內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Kiki的沙龍 的其他內容
前言 許多年前已經有許多研究使用影像處理方法來生成文字,如圖像描述和視覺問答。傳統上,這類系統依賴於物體檢測網絡作為視覺編碼器來捕捉視覺特徵,然後通過文字解碼器生成文字。鑑於大量現有文獻。這篇文章會專注於解決視覺任務的一種方法,即擴展預訓練的通用語言模型,使其能夠處理視覺信號。本文大致將這些視覺語
隨著大語言模型的發展熱潮,如何有效地使用大語言模型成為大眾關心的話題。要學會使用大語言模型不能不了解提示工程 (Prompt Engineering),提示工程也稱為上下文內提示,指的是如何與大型語言模型(Large Language Model, LLM)溝通以引導其行為達到預期結果的方法,而無需
時光回溯至2018年,自然語言處理(Natural Language Processing, NLP)領域開始有了驚人的進展。像OpenAI GPT和BERT這樣的大規模預訓練語言模型在解決各種不同的任務上取得了優異的表現。
大型語言模型(Large Language Model, LLM)中的幻覺通常指模型產生不真實、錯誤、不一致或無意義的內容。
以流為基礎的深度生成模型藉助正規化流這一強大的統計工具來解決密度估計這個困難問題。對 p(x) 的良好估計使得有效完成許多下游任務成為可能:取樣未觀察到但真實的新數據點(數據生成)、預測未來事件的稀有程度(密度估計)、推斷潛在變量、填補不完整的數據樣本等。
擴散模型受非均衡熱力學啟發。非均衡熱力學定義了一個擴散步驟的馬可夫鏈,逐步向資料添加隨機資訊,然後學習如何逆轉擴散過程,從隨機資訊中建構所需的樣本資料。與變分自編碼器(VAE)或以流為基礎的模型不同,擴散模型是通過固定程序學習的,且其潛在變量具有高維度(與原始資料相同)。
前言 許多年前已經有許多研究使用影像處理方法來生成文字,如圖像描述和視覺問答。傳統上,這類系統依賴於物體檢測網絡作為視覺編碼器來捕捉視覺特徵,然後通過文字解碼器生成文字。鑑於大量現有文獻。這篇文章會專注於解決視覺任務的一種方法,即擴展預訓練的通用語言模型,使其能夠處理視覺信號。本文大致將這些視覺語
隨著大語言模型的發展熱潮,如何有效地使用大語言模型成為大眾關心的話題。要學會使用大語言模型不能不了解提示工程 (Prompt Engineering),提示工程也稱為上下文內提示,指的是如何與大型語言模型(Large Language Model, LLM)溝通以引導其行為達到預期結果的方法,而無需
時光回溯至2018年,自然語言處理(Natural Language Processing, NLP)領域開始有了驚人的進展。像OpenAI GPT和BERT這樣的大規模預訓練語言模型在解決各種不同的任務上取得了優異的表現。
大型語言模型(Large Language Model, LLM)中的幻覺通常指模型產生不真實、錯誤、不一致或無意義的內容。
以流為基礎的深度生成模型藉助正規化流這一強大的統計工具來解決密度估計這個困難問題。對 p(x) 的良好估計使得有效完成許多下游任務成為可能:取樣未觀察到但真實的新數據點(數據生成)、預測未來事件的稀有程度(密度估計)、推斷潛在變量、填補不完整的數據樣本等。
擴散模型受非均衡熱力學啟發。非均衡熱力學定義了一個擴散步驟的馬可夫鏈,逐步向資料添加隨機資訊,然後學習如何逆轉擴散過程,從隨機資訊中建構所需的樣本資料。與變分自編碼器(VAE)或以流為基礎的模型不同,擴散模型是通過固定程序學習的,且其潛在變量具有高維度(與原始資料相同)。
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
時間快轉至2030年,或許城市還無懸浮飛車,但AI先會像電力存在每一個角落。百工百業運用智慧算力,就像打開水龍頭一樣容易。這描述並非Cyberpunk科幻場景,正逐漸在世界各地悄然成形。
Thumbnail
隨著AI技術的迅速發展,伺服器市場也隨之變革。OpenAI的ChatGPT引領語言模型潮流,其計算力來自高效能AI伺服器,配備GPU或AI加速器,支持TensorFlow等框架。穩定且高效的電源供應器(PSU)如FSP與3Y Power的電源供應器,提供穩定性及多重保護,滿足AI伺服器的需求。本
今天聊一聊由 Yu Bai [1] 於2023年發表的文章, 《Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection》[2]。 本文章的標題很有意思,
Thumbnail
作者認為AI,它不特屬於哪一個產業,在一定時間成熟之後,它充斥你我生活之中,就是像水電一樣的自然。有很多人還搞不清楚它的未來發展到哪裡? 當這變化還很劇烈時,過早投入反而浪費時間與成本,所以作者的洞見是:什麼是你我最珍貴的價值?
Thumbnail
這篇文章探討了NVIDIA在推論式AI半導體市場的挑戰,以及介紹了Intel在AI領域的強化舉措。文章中提到了新興企業可能有機會取代現有市場領導者,並討論了RISC-V技術在AI半導體市場的應用和其他相關動向。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
https://www.youtube.com/watch?v=f6XmHpPil6w剛好有幸朋友傳了這篇給我,趁著腦迴路還夠用的時候,來進行一些內容摘要與心得分享。 在提到演講內容之前,必須先有的一個概念:摩爾定律,由Intel的創始人之一摩爾所提出的,內容大概就是積體電路上可容納的電晶
Thumbnail
NVIDIA 黃仁勳 - AI人工智慧時代如何帶動全球新產業革命(個人紀錄用) 🇺🇸Omniverse 就是未來集大成,而加速運算、人工智慧就是兩個最重要的技術核心 🇺🇸CPU效能的擴充速度正在大幅降低,提出「運算通膨」概念
Thumbnail
★看似客觀中立的機器運算,可能在學習人類提供的資料後,再複製社會偏見與歧視,形成「自動不平等」!
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
時間快轉至2030年,或許城市還無懸浮飛車,但AI先會像電力存在每一個角落。百工百業運用智慧算力,就像打開水龍頭一樣容易。這描述並非Cyberpunk科幻場景,正逐漸在世界各地悄然成形。
Thumbnail
隨著AI技術的迅速發展,伺服器市場也隨之變革。OpenAI的ChatGPT引領語言模型潮流,其計算力來自高效能AI伺服器,配備GPU或AI加速器,支持TensorFlow等框架。穩定且高效的電源供應器(PSU)如FSP與3Y Power的電源供應器,提供穩定性及多重保護,滿足AI伺服器的需求。本
今天聊一聊由 Yu Bai [1] 於2023年發表的文章, 《Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection》[2]。 本文章的標題很有意思,
Thumbnail
作者認為AI,它不特屬於哪一個產業,在一定時間成熟之後,它充斥你我生活之中,就是像水電一樣的自然。有很多人還搞不清楚它的未來發展到哪裡? 當這變化還很劇烈時,過早投入反而浪費時間與成本,所以作者的洞見是:什麼是你我最珍貴的價值?
Thumbnail
這篇文章探討了NVIDIA在推論式AI半導體市場的挑戰,以及介紹了Intel在AI領域的強化舉措。文章中提到了新興企業可能有機會取代現有市場領導者,並討論了RISC-V技術在AI半導體市場的應用和其他相關動向。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
https://www.youtube.com/watch?v=f6XmHpPil6w剛好有幸朋友傳了這篇給我,趁著腦迴路還夠用的時候,來進行一些內容摘要與心得分享。 在提到演講內容之前,必須先有的一個概念:摩爾定律,由Intel的創始人之一摩爾所提出的,內容大概就是積體電路上可容納的電晶
Thumbnail
NVIDIA 黃仁勳 - AI人工智慧時代如何帶動全球新產業革命(個人紀錄用) 🇺🇸Omniverse 就是未來集大成,而加速運算、人工智慧就是兩個最重要的技術核心 🇺🇸CPU效能的擴充速度正在大幅降低,提出「運算通膨」概念
Thumbnail
★看似客觀中立的機器運算,可能在學習人類提供的資料後,再複製社會偏見與歧視,形成「自動不平等」!