AI說書 - 從0開始 - 487 | Vision Transformer 介紹

更新於 2025/08/04發佈於 2025/08/04閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

類似單詞的圖像序列可以適配於 Transformer 中，問題在於，它們仍然是圖像，Google Research 決定使用一種混合輸入模型來完成這項工作，如下圖所示：

添加卷積網路來嵌入這些圖像塊
添加位置編碼以保留原始圖像的結構
使用標準類似 BERT 的編碼器來處理嵌入的輸入
Transformer 生成原始 Logits 輸出，採樣器將其轉換為適配標籤 Logits 的概率，結果將是一個標籤

Google Research 找到了一種巧妙的方法，將 NLP Transformer 模型轉換為視覺 Transformer，該模型的架構與原始 Transformer 由 Vaswani 等人於 2017 年提出的結構非常接近，ViT 架構的優點可以總結為三點：

ViT 架構繼承了原始 Transformer 模型的可擴展能力
ViT 架構能夠比僅使用卷積神經網路的架構更好地捕捉長期依賴關係
ViT 將在其注意力層中學習所有圖像塊之間的關係，從而提供更精確的預測

Learn AI 不 BI三分鐘學AI (3)AI從0開始-十六章

留言

留言分享你的想法！

Learn AI 不 BI

236會員

789內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/08/02

AI說書 - 從0開始 - 486 | Vision Transformer 介紹

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Dosovitskiy 等人於 2021 年在其論文標題中概括了他們設計的視覺 Transformer 架構的本質：一張圖像相當於 16 x 16 個單詞：用於大規模圖

2025/08/02

AI說書 - 從0開始 - 486 | Vision Transformer 介紹

2025/08/01

AI說書 - 從0開始 - 485 | 第十六章涵蓋之模型

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 模型的抽象層次使其產生多模態神經元，多模態神經元可以處理被標記為像素或影像區塊的圖像，然後將其作為詞彙在視覺 Transformer 中處理，一

2025/08/01

AI說書 - 從0開始 - 485 | 第十六章涵蓋之模型

2025/07/31

AI說書 - 從0開始 - 484 | 第十六章涵蓋範圍

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。本章節將涵蓋以下內容：從任務無關模型到視覺模型 ViT 視覺 Transformer ViT 程式使用 CLIP 的文字影像視覺 Transformer

2025/07/31

AI說書 - 從0開始 - 484 | 第十六章涵蓋範圍

#AI 的其他內容

[應用] iOS 26 要來啦！｜Beta 版使用期間速記

TN科技筆記(TechNotes)的沙龍

Google Gemma 3 270M ：Google 為何反其道而行，推出一款「迷你」AI 模型？

方格子 vocus 官方沙龍

你的產業會在AI時代消失嗎？🤖

你可能也想看

方格子 vocus 官方沙龍

2025 下半場，蝦皮分潤計畫 x vocus 陪你回顧上半年的美好開箱！

2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》，我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物；這次活動不僅送出了許多獎勵，也反映了「內容有價」——創作不只是分享、紀錄，也能用各種不同形式變現、帶來實際收入。

#vocusforBusiness#蝦皮#蝦皮分潤

2025/08/25

方格子 vocus 官方沙龍

2025 下半場，蝦皮分潤計畫 x vocus 陪你回顧上半年的美好開箱！

#vocusforBusiness#蝦皮#蝦皮分潤

2025/08/25

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

嗨！歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台，並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈！「創作至上」是我們的核心價值，我們致力於透過平台功能與服務，賦予創作者更多的可能。 vocus 平台匯聚了

#vocus#徵才#社群行銷

2025/08/11

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

#vocus#徵才#社群行銷

2025/08/11