ViLBERT（Vision-and-Language BERT）

2025/08/19 更新2025/08/19 發佈閱讀 2 分鐘

ViLBERT（Vision-and-Language BERT）是一種多模態模型，將 BERT 架構擴展應用於同時理解圖像和文字的任務。它被設計用來學習通用的視覺-語言表示，支持多種視覺與語言結合的任務，比如視覺問答（VQA）、視覺推理和圖文檢索。

ViLBERT 核心架構：

• 採用雙流（Two-Stream）模式，一個 Transformer 流專門處理文本輸入，另一個流處理圖像特徵（通常是從物體檢測器如 Faster R-CNN 提取的區域特徵）。

• 兩個流通過交叉注意力（co-attentional transformer layers）互相作用，融合視覺與語言信息。

• 預訓練階段包含多種代理任務（proxy tasks），幫助模型學習視覺與語言的結合特性。

• 可以經過少量調整適用於多種視覺-語言任務。

功能與優勢：

• 通過預訓練學會將圖像區域和語言描述對齊，提升對圖文語意的綜合理解。

• 支持零-shot或少樣本學習，減少訓練成本。

• 在多個視覺語言任務中達到或超越當時的領先表現。

簡單比喻：

ViLBERT 就像一個同時具備「視覺眼睛」和「語言耳朵」的智能系統，能理解圖像內物體及其語言描述之間的複雜關聯。

總結：

ViLBERT 是基於 BERT 的多模態模型，融合圖片與文字信息，專注於提升視覺-語言聯合理解，是跨模態任務中的重要基石模型。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記多模態人工智慧應用

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

21會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/19

Vision Transformer（ViT）

Vision Transformer（ViT）是一種將 Transformer 架構應用於圖像處理的深度學習模型，與傳統卷積神經網路（CNN）不同，ViT 將圖片拆分成一系列不重疊的小塊（patches），並將這些塊視為 Transformer 的輸入序列來處理。 ViT 架構重要步驟： 1.

2025/08/19

Vision Transformer（ViT）

2025/08/19

CLIP（Contrastive Language–Image Pre-training）

CLIP（Contrastive Language–Image Pre-training）是由 OpenAI 開發的一種多模態模型，用於將圖片和文字映射到同一語義空間中，使模型能理解和關聯圖像與自然語言。主要特點： • 對比學習架構：CLIP 同時訓練圖片編碼器和文字編碼器，通過最大化匹配圖

2025/08/19

CLIP（Contrastive Language–Image Pre-training）

2025/08/18

Tensor Fusion (張量融合)

Tensor Fusion 是多模態學習中的一種融合技術，特別設計用來捕捉不同模態間的高階互動關係。其核心思想是以張量（tensor）的形式來表示並融合多模態特徵，能同時包含各模態的獨立信息以及模態間的交互作用，從而更全面深入地挖掘多模態數據的複雜關聯。 Tensor Fusion 的關鍵機制：

2025/08/18

Tensor Fusion (張量融合)

看更多

你可能也想看

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容，我們拿 Encoder 出來看：幾點注意如下： BERT 模型使用 M

#AI#ai#PromptEngineering

2024/08/11

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

#AI#ai#PromptEngineering

2024/08/11

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片，以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構，並詳細探討了訓練模型的方法以及不同的影像資料集來源。

#模型#視頻#數據

2024/07/05

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

#模型#視頻#數據

2024/07/05

貓貓學習筆記

TextToSpeech-語音初探

　　在 AI 應用中，圖像、語音、文字三種可以說是主要應用，其中我一直以來都是專注於圖像上的研究，對於另兩種僅止於淺嚐，接下來就往音訊上研究看看，先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用，那麼，就讓我們開始吧。

2024/05/24

2024/05/24

[人工智障計畫] 難眠之頁 #8 | 給他一個聲音 - VITS 文字轉語音模型快速訓練法

「人工智障計畫」也執行了好一段時間了，關於這個專案中文字轉語音的方案，在之前的筆記中也有稍微提到，為了達成能自訂聲線，並且能完全離線運作兩個條件，我已經做過了不少嘗試。

#人工智障計畫#AI#VITS

2024/05/19

偽命名培養體

[人工智障計畫] 難眠之頁 #8 | 給他一個聲音 - VITS 文字轉語音模型快速訓練法

#人工智障計畫#AI#VITS

2024/05/19

dab戴伯的沙龍

BERT與GPT: 自監督學習的大型模型

本文介紹自我監督學習的概念和訓練方式，以BERT和GPT為例，深入探討Masking Input及Fine-Tune的實際操作和可應用性。

#機器學習#深度學習#ChatGPT

2024/05/16

dab戴伯的沙龍

BERT與GPT: 自監督學習的大型模型

本文介紹自我監督學習的概念和訓練方式，以BERT和GPT為例，深入探討Masking Input及Fine-Tune的實際操作和可應用性。

#機器學習#深度學習#ChatGPT

2024/05/16

陳星晴老師-教育斜棟人生

[附教案及教學影片]運用AI 生成圖片功能，學習描寫文寫作

在學習描寫文的過程中，將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能，教師能夠幫助學生將抽象的描述轉化為具體的圖像。

#AI#人工智能#人工智慧

2024/04/23

陳星晴老師-教育斜棟人生

[附教案及教學影片]運用AI 生成圖片功能，學習描寫文寫作

在學習描寫文的過程中，將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能，教師能夠幫助學生將抽象的描述轉化為具體的圖像。

#AI#人工智能#人工智慧

2024/04/23

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News