我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- 影像編碼器:
- 包括 12 個 Transformer 區塊堆疊而成
- 每個 Transformer 區塊包含自注意力層、卷積層和殘差連接
- 編碼器使用 Patch Embedding Layer,將輸入影像轉換為一系列影像貼片,然後透過 Transformer 區塊處理這些 Patch,學習影像內不同區域的關聯性及長距離依賴性
2. 分類頭:
- 接收影像編碼器的輸出,生成一個包含類別機率的向量
- 向量中的類別數目與模型訓練時所使用的數據集的類別數相符
3. 輔助頭:
- 接收影像編碼器的輸出,預測輸入影像的語義分割(Semantic Segmentation)
- 語義分割是基於像素的分類任務,為影像中的每個像素分配一個類別標籤
BEiT 模型在影像編碼的過程中,學習如何關注影像內不同區域 (貼片),同時理解貼片之間的長距離關係,這使其能有效處理影像分類和語義分割等任務,為每個像素提供精確的類別預測。





















