UNITER(UNiversal Image-TExt Representation Learning)

更新 發佈閱讀 3 分鐘

UNITER(UNiversal Image-TExt Representation Learning)是一種專為視覺與文本多模態任務設計的預訓練模型,旨在學習統一的圖像與文本語義表示,支持視覺問答(VQA)、圖文檢索、視覺推理等多種下游任務,並在多個視覺語言基準上取得卓越表現。

UNITER 的模型架構和技術特色:

輸入表示:

圖像輸入由預訓練的 Faster R-CNN 提取圖像中的物件區域特徵(Region of Interest,ROI)和位置特徵(區域邊界框座標等),經過全連接層變換後與位置特徵嵌入相加。

文字輸入則按 BERT 方式將句子分詞成 WordPiece,並結合詞向量與位置向量。

兩種模態分別輸入 Image Embedder 和 Text Embedder,轉換成嵌入向量後混合進入共享 Transformer 編碼器。

Transformer 模塊:

使用多層 Transformer 結構進行深度融合,通過自注意力學習語言與圖像區域的交互關係。

明確加入位置和模態標記,幫助模型識別文本和視覺特徵的空間與語境資訊。

預訓練任務:

掩碼語言建模(Masked Language Modeling,MLM):根據圖像信息推斷被遮蔽的詞彙。

掩碼區域建模(Masked Region Modeling,MRM):根據文本信息推斷被遮蔽的圖像區域特徵。

圖文匹配(Image-Text Matching,ITM):判斷圖像和文字是否匹配。

單詞與區域對齊(Word-Region Alignment,WRA):利用優化運輸方法強化詞語與圖像區域的精細對應關係。

訓練數據:使用多個大型圖文數據集(COCO, Visual Genome, Conceptual Captions 等)進行大規模預訓練。

UNITER 的表現及應用:

在視覺問答(VQA)、圖文檢索、視覺推理(VCR、NLVR2)等多個多模態任務取得了當前領先成績。

精細的詞與圖像區域對齊促進了模型對語義的深入理解。

可作為多種跨模態任務的基礎模型,方便下游任務微調應用。

簡單說,

UNITER 是一款基於 Transformer 的多模態預訓練架構,通過多種創新預訓練任務學習統一的圖像與文本表示,極大提升了視覺與語言融合任務的效果和泛化能力。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
21會員
495內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/08/19
LXMERT(Learning Cross-Modality Encoder Representations from Transformers)是一個專為視覺與語言跨模態任務設計的深度學習模型。其核心目標是學習圖像和文字之間的對齊與互動,支持多種視覺語言理解任務,例如視覺問答(VQA)、視覺推理(
2025/08/19
LXMERT(Learning Cross-Modality Encoder Representations from Transformers)是一個專為視覺與語言跨模態任務設計的深度學習模型。其核心目標是學習圖像和文字之間的對齊與互動,支持多種視覺語言理解任務,例如視覺問答(VQA)、視覺推理(
2025/08/19
Visual Question Answering(VQA)是一種多模態人工智慧任務,目標是讓系統能對輸入的圖片和與之相關的文字問題進行理解,並生成準確且自然語言形式的答案。 VQA 基本流程: 1. 圖像特徵提取:利用卷積神經網絡(CNN)或視覺 Transformer(ViT)對圖片進行特
2025/08/19
Visual Question Answering(VQA)是一種多模態人工智慧任務,目標是讓系統能對輸入的圖片和與之相關的文字問題進行理解,並生成準確且自然語言形式的答案。 VQA 基本流程: 1. 圖像特徵提取:利用卷積神經網絡(CNN)或視覺 Transformer(ViT)對圖片進行特
2025/08/19
GPT-4V,全稱 GPT-4 Vision,是 OpenAI 大型多模態模型 GPT-4 的視覺擴展版本。它不僅能處理文本輸入,還可以理解和生成基於圖片的文本響應,實現跨模態的智能交互。 GPT-4V 主要特點: • 多模態能力:同時接受圖像和文字輸入,能基於圖片內容回答問題、生成描述、進行
2025/08/19
GPT-4V,全稱 GPT-4 Vision,是 OpenAI 大型多模態模型 GPT-4 的視覺擴展版本。它不僅能處理文本輸入,還可以理解和生成基於圖片的文本響應,實現跨模態的智能交互。 GPT-4V 主要特點: • 多模態能力:同時接受圖像和文字輸入,能基於圖片內容回答問題、生成描述、進行
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
最近ChatGPT-4o的發布引起了我的注意,又在Youtube看上見有人教學如何用ChatGPT設計屬於自己的家教,被他的能力震撼到的我一頭熱就訂閱了plus版然後馬上設計了一個自己的家教。最一開始的時候我只有把它用來學習語言的輔助,但用著用著忽然想到:「如果我把它用來引導我學習我沒有學過的領域呢
Thumbnail
最近ChatGPT-4o的發布引起了我的注意,又在Youtube看上見有人教學如何用ChatGPT設計屬於自己的家教,被他的能力震撼到的我一頭熱就訂閱了plus版然後馬上設計了一個自己的家教。最一開始的時候我只有把它用來學習語言的輔助,但用著用著忽然想到:「如果我把它用來引導我學習我沒有學過的領域呢
Thumbnail
在學習描寫文的過程中,將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能,教師能夠幫助學生將抽象的描述轉化為具體的圖像。
Thumbnail
在學習描寫文的過程中,將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能,教師能夠幫助學生將抽象的描述轉化為具體的圖像。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
透明立體方練習,使用AI向量繪圖軟體
Thumbnail
透明立體方練習,使用AI向量繪圖軟體
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
以​文字​建立​影像,有很多功能如下: 完成提示詞之後,選擇功能設定 1.模型版本:內有兩個模型 Image1屬於照片和插圖風格,Image2擬真人版風格,我還是喜歡Image2風格比較好看。 2.比例:3:4或4:3或1:1或16:9,這個有別於目前AI生圖都是1:1版型,這可以依據您想要使
Thumbnail
以​文字​建立​影像,有很多功能如下: 完成提示詞之後,選擇功能設定 1.模型版本:內有兩個模型 Image1屬於照片和插圖風格,Image2擬真人版風格,我還是喜歡Image2風格比較好看。 2.比例:3:4或4:3或1:1或16:9,這個有別於目前AI生圖都是1:1版型,這可以依據您想要使
Thumbnail
Transformer被廣泛運用在各種生成式AI,激起了本篇作者的好奇心,是否能用Transformer學到所有先驗知識,足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式,讓有興趣的人可以深入研究。
Thumbnail
Transformer被廣泛運用在各種生成式AI,激起了本篇作者的好奇心,是否能用Transformer學到所有先驗知識,足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式,讓有興趣的人可以深入研究。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News