我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- 圖像編碼器:由一組堆疊的 Transformer 區塊構成,每個 Transformer 區塊包含一個自注意力層、一個卷積層和一個殘差連接
- 分類頭:輸出輸入圖像的類別機率
在 ViT 模型中,圖像編碼器使用 Patch Embedding Layer,將輸入圖像轉換為 Patch Sequence,這些 Patch 隨後由 Transformer 區塊進行處理。ViT 模型中的分類頭則將圖像編碼器的輸出作為輸入,並輸出一個類別機率向量,該向量中的類別數取決於模型訓練的數據集中類別的數量。
如果要觀看 ViT 模型的堆疊,可以使用以下程式:
model_name = "Denis1976/autotrain-training-cifar-10-81128141658"
model = transformers.AutoModelForImageClassification.from_pretrained(model_ name, use_auth_token = token)
print(model.config)
結果為:




























