我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- 添加卷積網路來嵌入這些圖像塊
- 添加位置編碼以保留原始圖像的結構
- 使用標準類似 BERT 的編碼器來處理嵌入的輸入
- Transformer 生成原始 Logits 輸出,採樣器將其轉換為適配標籤 Logits 的概率,結果將是一個標籤

Google Research 找到了一種巧妙的方法,將 NLP Transformer 模型轉換為視覺 Transformer,該模型的架構與原始 Transformer 由 Vaswani 等人於 2017 年提出的結構非常接近,ViT 架構的優點可以總結為三點:
- ViT 架構繼承了原始 Transformer 模型的可擴展能力
- ViT 架構能夠比僅使用卷積神經網路的架構更好地捕捉長期依賴關係
- ViT 將在其注意力層中學習所有圖像塊之間的關係,從而提供更精確的預測