大型視覺模型

更新於 2024/12/07閱讀時間約 2 分鐘

前言

許多年前已經有許多研究使用影像處理方法來生成文字,如圖像描述和視覺問答。傳統上,這類系統依賴於物體檢測網路作為視覺編碼器來捕捉視覺特徵,然後通過文字解碼器生成文字。鑑於大量現有文獻。這篇文章會專注於解決視覺任務的一種方法,即擴展預訓練的通用語言模型,使其能夠處理視覺訊號。本文大致將這些視覺語言模型(VLMs)分為四類:

  1. 將圖像轉換為可與標記嵌入共同訓練的嵌入特徵。
  2. 學習良好的圖像嵌入,可作為凍結的、預訓練語言模型的前綴。
  3. 使用特別設計的交叉注意力機制將視覺訊息融入語言模型的層中。
  4. 在不進行任何訓練的情況下結合視覺和語言模型。


聯合圖片和文字訓練

將視覺訊息融入語言模型的一種直接方法是將圖像視為普通文字標記,並在文字和圖像的聯合表示序列上訓練模型。具體來說,圖像被分割成多個較小的區塊,每個區塊在輸入序列中被視為一個「標記」。VisualBERT(Li等人,2019年)將文字輸入和圖像區域同時輸入BERT,使其能夠通過自注意力機制發現圖像和文字之間的內部對齊關係。


文字-圖像交叉注意力融合機制

為了更有效地將視覺資訊融入語言模型的不同層中,我們可以考慮一種特別設計的交叉注意力融合機制,以平衡文字生成能力和視覺資訊的混合。VisualGPT(Chen等人,2021年)採用了一種自適應的編碼器-解碼器注意力機制,以便使用少量的圖片-文字資料快速適應預訓練的語言模型。


Reference

  1. https://arxiv.org/abs/2102.10407
  2. https://arxiv.org/abs/1908.03557
avatar-img
0會員
31內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
風清揚的沙龍 的其他內容
隨著大語言模型的發展熱潮,如何有效地使用大語言模型成為大眾關心的話題。要學會使用大語言模型不能不了解提示工程 (Prompt Engineering),提示工程也稱為上下文內提示,指的是如何與大型語言模型(Large Language Model, LLM)溝通以引導其行為達到預期結果的方法,而無需
時光回溯至2018年,自然語言處理(Natural Language Processing, NLP)領域開始有了驚人的進展。像OpenAI GPT和BERT這樣的大規模預訓練語言模型在解決各種不同的任務上取得了優異的表現。
大型語言模型(Large Language Model, LLM)中的幻覺通常指模型產生不真實、錯誤、不一致或無意義的內容。
以流為基礎的深度生成模型藉助正規化流這一強大的統計工具來解決密度估計這個困難問題。對 p(x) 的良好估計使得有效完成許多下游任務成為可能:取樣未觀察到但真實的新數據點(數據生成)、預測未來事件的稀有程度(密度估計)、推斷潛在變量、填補不完整的數據樣本等。
擴散模型受非均衡熱力學啟發。非均衡熱力學定義了一個擴散步驟的馬可夫鏈,逐步向資料添加隨機資訊,然後學習如何逆轉擴散過程,從隨機資訊中建構所需的樣本資料。與變分自編碼器(VAE)或以流為基礎的模型不同,擴散模型是通過固定程序學習的,且其潛在變量具有高維度(與原始資料相同)。
深度學習是什麼? 簡單來說,深度學習是大型且多層的人工神經網路。我們可以想像神經網路("Neural Nnetwork, NN")是一種有向無環圖,此圖可拆分成三個部分來看: 1. 輸入層接收信號向量;2. 一個或多個隱藏層處理前一層的輸出; 3. 輸出層統合之前所有隱藏層的處理結果。神經網路的初
隨著大語言模型的發展熱潮,如何有效地使用大語言模型成為大眾關心的話題。要學會使用大語言模型不能不了解提示工程 (Prompt Engineering),提示工程也稱為上下文內提示,指的是如何與大型語言模型(Large Language Model, LLM)溝通以引導其行為達到預期結果的方法,而無需
時光回溯至2018年,自然語言處理(Natural Language Processing, NLP)領域開始有了驚人的進展。像OpenAI GPT和BERT這樣的大規模預訓練語言模型在解決各種不同的任務上取得了優異的表現。
大型語言模型(Large Language Model, LLM)中的幻覺通常指模型產生不真實、錯誤、不一致或無意義的內容。
以流為基礎的深度生成模型藉助正規化流這一強大的統計工具來解決密度估計這個困難問題。對 p(x) 的良好估計使得有效完成許多下游任務成為可能:取樣未觀察到但真實的新數據點(數據生成)、預測未來事件的稀有程度(密度估計)、推斷潛在變量、填補不完整的數據樣本等。
擴散模型受非均衡熱力學啟發。非均衡熱力學定義了一個擴散步驟的馬可夫鏈,逐步向資料添加隨機資訊,然後學習如何逆轉擴散過程,從隨機資訊中建構所需的樣本資料。與變分自編碼器(VAE)或以流為基礎的模型不同,擴散模型是通過固定程序學習的,且其潛在變量具有高維度(與原始資料相同)。
深度學習是什麼? 簡單來說,深度學習是大型且多層的人工神經網路。我們可以想像神經網路("Neural Nnetwork, NN")是一種有向無環圖,此圖可拆分成三個部分來看: 1. 輸入層接收信號向量;2. 一個或多個隱藏層處理前一層的輸出; 3. 輸出層統合之前所有隱藏層的處理結果。神經網路的初
你可能也想看
Google News 追蹤
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
視覺層級並不侷限於平面設計,在用戶體驗及介面上更是一個重要的核心之一。視覺層級除了讓畫面的視覺編排更加精緻好看,更重要的功能是能讓畫面有效地被組織,讓觀者更容易理解。
Thumbnail
我們最早就是在做動畫,從一般廣告開始,慢慢去擴展不同的類型,比如說遊戲、角色動畫、電視與電影的特效……等等,但是越做越專業的情況下,我們就想再去做一些延伸,像是虛擬攝影棚跟虛擬製作,我們找到這些工作項目的共通元素去發展,甚至到後面我們還去做互動設計、沉浸式多媒體展覽與現在時下最熱門的AI生成技術。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
視覺層級並不侷限於平面設計,在用戶體驗及介面上更是一個重要的核心之一。視覺層級除了讓畫面的視覺編排更加精緻好看,更重要的功能是能讓畫面有效地被組織,讓觀者更容易理解。
Thumbnail
我們最早就是在做動畫,從一般廣告開始,慢慢去擴展不同的類型,比如說遊戲、角色動畫、電視與電影的特效……等等,但是越做越專業的情況下,我們就想再去做一些延伸,像是虛擬攝影棚跟虛擬製作,我們找到這些工作項目的共通元素去發展,甚至到後面我們還去做互動設計、沉浸式多媒體展覽與現在時下最熱門的AI生成技術。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。