Vision Transformer（ViT）

2025/08/19 更新2025/08/19 發佈閱讀 3 分鐘

Vision Transformer（ViT）是一種將 Transformer 架構應用於圖像處理的深度學習模型，與傳統卷積神經網路（CNN）不同，ViT 將圖片拆分成一系列不重疊的小塊（patches），並將這些塊視為 Transformer 的輸入序列來處理。

ViT 架構重要步驟：

1. 圖像切片（Patch Splitting） 將輸入圖像分割成固定大小的小塊（例如 16x16 像素），每個塊類似於NLP中的「詞」。

2. 塊展平與嵌入（Flattening and Embedding） 每個圖像塊展平成一維向量，再經過一個線性全連接層，將其映射到一個高維的嵌入空間。

3. 位置編碼（Positional Encoding） 由於 Transformer 本身缺乏序列位置信息，ViT 會將位置向量加到每個圖像塊的嵌入向量中，以保留空間結構資訊。

4. Transformer Encoder 加入位置編碼後的圖像塊嵌入序列被輸入多層Transformer編碼器（由多頭自注意力層和前饋層組成），模型通過自注意力捕捉圖像各部分間的關聯。

5. 分類符號（CLS token） 在序列前加入一個可訓練的特殊符號，經過 Transformer 編碼後，該符號的輸出預測整張圖片的分類結果。

ViT的優勢：

• 能捕捉到圖像中全局的關聯與長距離依賴結構，較 CNN 更靈活。

• 在大數據和大量計算資源支持下，ViT 可展現優越性能。

• 架構一致性，使它在跨模態學習（如圖片+文字）更易整合。

挑戰：

• 需要較多的訓練數據和算力，較小數據集上表現不及具有先驗偏差的 CNN。

• 對於小尺寸圖像或局部細節捕捉相對弱於 CNN。

簡單比喻：

ViT 把圖片切成「小拼圖」，像處理詞語一樣，把這些拼圖作為序列交給 Transformer，模型能理解每個拼圖及其間關係，整合成對圖像的整體理解。

總結：

Vision Transformer 是將 Transformer 序列處理架構引入圖像領域，通過切分圖像為小塊並進行自注意力運算，開啟了圖像理解的新途徑，成為現代視覺任務重要的替代架構。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記多模態人工智慧應用

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

21會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/19

CLIP（Contrastive Language–Image Pre-training）

CLIP（Contrastive Language–Image Pre-training）是由 OpenAI 開發的一種多模態模型，用於將圖片和文字映射到同一語義空間中，使模型能理解和關聯圖像與自然語言。主要特點： • 對比學習架構：CLIP 同時訓練圖片編碼器和文字編碼器，通過最大化匹配圖

2025/08/19

CLIP（Contrastive Language–Image Pre-training）

2025/08/18

Tensor Fusion (張量融合)

Tensor Fusion 是多模態學習中的一種融合技術，特別設計用來捕捉不同模態間的高階互動關係。其核心思想是以張量（tensor）的形式來表示並融合多模態特徵，能同時包含各模態的獨立信息以及模態間的交互作用，從而更全面深入地挖掘多模態數據的複雜關聯。 Tensor Fusion 的關鍵機制：

2025/08/18

Tensor Fusion (張量融合)

2025/08/18

多模態融合的具體技術

多模態融合的具體技術包括多種經典與進階方法，主要可分為特徵級、決策級和模型級等不同層次，常見的融合技術與方法如下： 1. 特徵級融合（Feature-level Fusion）直接拼接（Concatenation）：將不同模態的特徵向量直接合併為一個高維特徵，最常用且簡單。逐元素操作

2025/08/18

多模態融合的具體技術

看更多

你可能也想看

Chloe小窩

手作人必看｜用蝦皮分潤計畫把興趣變新收入渠道

在小小的租屋房間裡，透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材，打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖，並推薦蝦皮分潤計畫。

#手作#黏土手作#輕黏土

2025/09/09

Chloe小窩

手作人必看｜用蝦皮分潤計畫把興趣變新收入渠道

#手作#黏土手作#輕黏土

2025/09/09

小蝸慢慢爬

蝦皮分潤計畫-小豬與小蝸的婚姻神隊友

小蝸和小豬因購物習慣不同常起衝突，直到發現蝦皮分潤計畫，讓小豬的購物愛好產生價值，也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異？讓蝦皮分潤計畫成為你們的神隊友吧！

2025/09/09

2025/09/09

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

特徵工程是機器學習中的核心技術，通過將原始數據轉換為有意義的特徵，以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程，以幫助讀者有效利用特徵工程來優化機器學習模型表現。

#數據#模型#異常

2024/08/14

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

#數據#模型#異常

2024/08/14

Karen的沙龍

【邁向圖神經網絡GNN】Part5: 建構 GNN model 實作 Cora 資料集結點分類任務

本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡（GNN），並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化，包括引入批量標準化和獨立的消息傳遞層，調整Dropout和聚合函數，顯著提高了模型的分類準確率。實驗結果表明，經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。

#GNN#Graph#dropout

2024/07/28