Vision Transformer(ViT)

更新於 發佈於 閱讀時間約 3 分鐘

Vision Transformer(ViT)是一種將 Transformer 架構應用於圖像處理的深度學習模型,與傳統卷積神經網路(CNN)不同,ViT 將圖片拆分成一系列不重疊的小塊(patches),並將這些塊視為 Transformer 的輸入序列來處理。

ViT 架構重要步驟:

1. 圖像切片(Patch Splitting)
將輸入圖像分割成固定大小的小塊(例如 16x16 像素),每個塊類似於NLP中的「詞」。

2. 塊展平與嵌入(Flattening and Embedding)
每個圖像塊展平成一維向量,再經過一個線性全連接層,將其映射到一個高維的嵌入空間。

3. 位置編碼(Positional Encoding)
由於 Transformer 本身缺乏序列位置信息,ViT 會將位置向量加到每個圖像塊的嵌入向量中,以保留空間結構資訊。

4. Transformer Encoder
加入位置編碼後的圖像塊嵌入序列被輸入多層Transformer編碼器(由多頭自注意力層和前饋層組成),模型通過自注意力捕捉圖像各部分間的關聯。

5. 分類符號(CLS token)
在序列前加入一個可訓練的特殊符號,經過 Transformer 編碼後,該符號的輸出預測整張圖片的分類結果。

ViT的優勢:

能捕捉到圖像中全局的關聯與長距離依賴結構,較 CNN 更靈活。

在大數據和大量計算資源支持下,ViT 可展現優越性能。

架構一致性,使它在跨模態學習(如圖片+文字)更易整合。

挑戰:

需要較多的訓練數據和算力,較小數據集上表現不及具有先驗偏差的 CNN。

對於小尺寸圖像或局部細節捕捉相對弱於 CNN。

簡單比喻:

ViT 把圖片切成「小拼圖」,像處理詞語一樣,把這些拼圖作為序列交給 Transformer,模型能理解每個拼圖及其間關係,整合成對圖像的整體理解。

總結:

Vision Transformer 是將 Transformer 序列處理架構引入圖像領域,通過切分圖像為小塊並進行自注意力運算,開啟了圖像理解的新途徑,成為現代視覺任務重要的替代架構。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
18會員
461內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/08/19
CLIP(Contrastive Language–Image Pre-training)是由 OpenAI 開發的一種多模態模型,用於將圖片和文字映射到同一語義空間中,使模型能理解和關聯圖像與自然語言。 主要特點: • 對比學習架構:CLIP 同時訓練圖片編碼器和文字編碼器,通過最大化匹配圖
2025/08/19
CLIP(Contrastive Language–Image Pre-training)是由 OpenAI 開發的一種多模態模型,用於將圖片和文字映射到同一語義空間中,使模型能理解和關聯圖像與自然語言。 主要特點: • 對比學習架構:CLIP 同時訓練圖片編碼器和文字編碼器,通過最大化匹配圖
2025/08/18
Tensor Fusion 是多模態學習中的一種融合技術,特別設計用來捕捉不同模態間的高階互動關係。其核心思想是以張量(tensor)的形式來表示並融合多模態特徵,能同時包含各模態的獨立信息以及模態間的交互作用,從而更全面深入地挖掘多模態數據的複雜關聯。 Tensor Fusion 的關鍵機制:
2025/08/18
Tensor Fusion 是多模態學習中的一種融合技術,特別設計用來捕捉不同模態間的高階互動關係。其核心思想是以張量(tensor)的形式來表示並融合多模態特徵,能同時包含各模態的獨立信息以及模態間的交互作用,從而更全面深入地挖掘多模態數據的複雜關聯。 Tensor Fusion 的關鍵機制:
2025/08/18
多模態融合的具體技術包括多種經典與進階方法,主要可分為特徵級、決策級和模型級等不同層次,常見的融合技術與方法如下: 1. 特徵級融合(Feature-level Fusion) 直接拼接(Concatenation):將不同模態的特徵向量直接合併為一個高維特徵,最常用且簡單。 逐元素操作
2025/08/18
多模態融合的具體技術包括多種經典與進階方法,主要可分為特徵級、決策級和模型級等不同層次,常見的融合技術與方法如下: 1. 特徵級融合(Feature-level Fusion) 直接拼接(Concatenation):將不同模態的特徵向量直接合併為一個高維特徵,最常用且簡單。 逐元素操作
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡(GNN),並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化,包括引入批量標準化和獨立的消息傳遞層,調整Dropout和聚合函數,顯著提高了模型的分類準確率。實驗結果表明,經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。
Thumbnail
本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡(GNN),並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化,包括引入批量標準化和獨立的消息傳遞層,調整Dropout和聚合函數,顯著提高了模型的分類準確率。實驗結果表明,經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
本文主要介紹,如何利用GAN生成對抗網路來訓練生成圖片。 利用tensorflow,中的keras來建立生成器及鑑別器互相競爭訓練,最後利用訓練好的生成器來生成圖片。 GAN生成對抗網路的介紹 它由生成網路(Generator Network)和鑑別網路(Discriminator Netwo
Thumbnail
本文主要介紹,如何利用GAN生成對抗網路來訓練生成圖片。 利用tensorflow,中的keras來建立生成器及鑑別器互相競爭訓練,最後利用訓練好的生成器來生成圖片。 GAN生成對抗網路的介紹 它由生成網路(Generator Network)和鑑別網路(Discriminator Netwo
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文主要介紹,如何利用VAE變分自編碼器來訓練生成圖片。 訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器,主要是一種將原始資料編碼到潛在向量空間,再編碼回來的神經網路。
Thumbnail
本文主要介紹,如何利用VAE變分自編碼器來訓練生成圖片。 訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器,主要是一種將原始資料編碼到潛在向量空間,再編碼回來的神經網路。
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
卷積神經網路(CNN)是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用,包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文,讀者將瞭解CNN在影像辨識領域的優勢和運作原理。
Thumbnail
卷積神經網路(CNN)是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用,包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文,讀者將瞭解CNN在影像辨識領域的優勢和運作原理。
Thumbnail
在 AI 研究的領域中,理解和解釋語言模型如何處理和回應特定輸入始終是一項巨大挑戰。這種復雜性不僅限於模型的規模和結構,還涉及到它們如何在內部做出決策。為了應對這一挑戰,OpenAI 推出了一款名為 Transformer Debugger (TDB) 的工具,旨在深入探索小型語言模型的行為
Thumbnail
在 AI 研究的領域中,理解和解釋語言模型如何處理和回應特定輸入始終是一項巨大挑戰。這種復雜性不僅限於模型的規模和結構,還涉及到它們如何在內部做出決策。為了應對這一挑戰,OpenAI 推出了一款名為 Transformer Debugger (TDB) 的工具,旨在深入探索小型語言模型的行為
Thumbnail
涉及圖像處理和計算機視覺時,色彩空間轉換是一個常見操作,應用如下: 降維: 將一張彩色圖像轉換為灰度圖像可以減少數據的維度,簡化處理過程,同時在某些情況下保留重要的視覺信息。 突顯特徵: 在某些情況下,某些色彩通道可能包含冗餘或不必要的信息,通過轉換到其他色彩空間,可以更好地突顯圖像中的重要特徵
Thumbnail
涉及圖像處理和計算機視覺時,色彩空間轉換是一個常見操作,應用如下: 降維: 將一張彩色圖像轉換為灰度圖像可以減少數據的維度,簡化處理過程,同時在某些情況下保留重要的視覺信息。 突顯特徵: 在某些情況下,某些色彩通道可能包含冗餘或不必要的信息,通過轉換到其他色彩空間,可以更好地突顯圖像中的重要特徵
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News