付費限定

多模態詠唱外掛模型,輕量靈活有效,IP-Adapter by Hu & Jun et al

更新於 發佈於 閱讀時間約 5 分鐘

文字生成圖片的擴散生成模型,實際應用上並沒有想像中好用,原因在於,文字能夠乘載的訊息量太少,要產生好的生成結果一定程度仰賴特定的Prompt描述方法,如DALL-E3使用GPT4不斷增加描述的細節,讓文生圖的結果更好,有沒有更有效率的方式呢?

這次要介紹的這篇,展示能同時應用圖片/ 深度圖 / 人體骨架圖 / 輪廓圖 / 分割圖 加上原有的文生圖擴散模型,來生成圖片,所需要訓練的外掛模型 IP-Adapter只需要調整約22MB的參數,訓練方式只需要使用Image Pair 配對圖,冷凍住原有的文生圖擴散模型,訓練時文字敘述可以是空的,讓少量參數不斷地根據輸出結果來倒傳遞調整Cross Attention輸出的向量,如下圖所示。

一篇好的論文最好要有一張架構全覽圖,讓讀者能快速掌握重點。

一篇好的論文最好要有一張架構全覽圖,讓讀者能快速掌握重點。


論文核心概念:

  1. 圖片往往能比文字帶來更多訊息,一張圖片往往勝過千言萬語
  2. 傳統做法僅僅將圖片向量與文字向量對齊,沒有完全拆開來善用圖片帶來的描述特徵
  3. 外掛模型能夠大幅降低參數成本與訓練成本,適用於各種文生圖擴散生成模型


論文主要手法:

這邊基本上是使用經典的擴散模型訓練方式,底下的數學描述部份看到是否感覺熟悉,收斂各種Condition,包含初始亂數種子,與Prompts,在不同擴散Step (t) 的L2 Norm,冷凍原本的擴散模型部分,只訓練調整外掛模型的部分。

raw-image


同時作者有說,他會隨機的把描述Condition拿掉,使用Class-Free Guidance (CFG) 技術來提升生成畫質,這種方式也可以看成是一種隨機擾動的方式,避免模型產生過早over-fitting的現象。但是加入CFG也就意味著要權衡生成的多樣性/準確性與高畫質這兩件事情,在拿掉條件以後,可看成是一種pixel-to-pixel的調整方式,專心提升畫質。

raw-image


以行動支持創作者!付費即可解鎖
本篇內容共 2392 字、0 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
avatar-img
95會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B,能用較小的運算資源與參數量,打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀,抽取其中的核心概念,試圖打開技術的神秘面紗。
Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。
本篇文章為大家導讀近日火熱的Mamba Paper,新聞標題說它是Transformer的繼任者,是否真是如此? 讓我們一起一探究竟,本文著重介紹論文前半部分。
Starling-LM-7B近來火燙,有使用到本篇的C-RLFT技術,基於此基礎上可以把7B小模型的微調成績做到頂尖,一起來理解OpenChat 的 C-RLFT技術是如何實現的,所能產生的效果為何,以及探索為何能達到這樣好的成績。
微軟爸爸發論文教大家如何訓練與評估model,有完整的訓練思路與評估方法,雖然本篇沒有任何Fine-tune的手法,比較不接地氣,但是仍然可以當成一個好的參考範例,可以從中學到許多評估模型的角度與關鍵指標,改天會進行總結整理。
北京清華大學改進了傳統Stable Diffusion (SD) 文生圖的加速算法,讓SD這項技術,可以在筆電達到即時(Real Time)運算等級,讓我們一起來了解這項技術,期許未來能在各種應用上使用,或是看到源碼也不陌生。
知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B,能用較小的運算資源與參數量,打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀,抽取其中的核心概念,試圖打開技術的神秘面紗。
Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。
本篇文章為大家導讀近日火熱的Mamba Paper,新聞標題說它是Transformer的繼任者,是否真是如此? 讓我們一起一探究竟,本文著重介紹論文前半部分。
Starling-LM-7B近來火燙,有使用到本篇的C-RLFT技術,基於此基礎上可以把7B小模型的微調成績做到頂尖,一起來理解OpenChat 的 C-RLFT技術是如何實現的,所能產生的效果為何,以及探索為何能達到這樣好的成績。
微軟爸爸發論文教大家如何訓練與評估model,有完整的訓練思路與評估方法,雖然本篇沒有任何Fine-tune的手法,比較不接地氣,但是仍然可以當成一個好的參考範例,可以從中學到許多評估模型的角度與關鍵指標,改天會進行總結整理。
北京清華大學改進了傳統Stable Diffusion (SD) 文生圖的加速算法,讓SD這項技術,可以在筆電達到即時(Real Time)運算等級,讓我們一起來了解這項技術,期許未來能在各種應用上使用,或是看到源碼也不陌生。
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
大型多模態模型(LMMs)作為生成式人工智慧的前沿技術,擁有處理語音、文本和圖像等資料的能力,廣泛應用於健康醫療領域,包括疾病診斷和患者管理。然而,這些技術的發展同時帶來倫理和治理挑戰。本文深入探討 LMMs 在醫療領域的應用和挑戰。
🌟 多模態生成式AI:人工智慧的下一個革命 引言 人工智慧(AI)正處於一場前所未有的變革之中,而多模態生成式AI無疑是這場革命中的一個關鍵驅動力。這項技術突破了傳統單一模態AI的限制,允許系統從多個不同的數據來源(如文字、圖像、音頻、視頻等)進行學習和生成。這不僅開啟了全新的應用場景,還在各
🔍 解鎖AI潛力:多模態生成技術的應用與挑戰 引言 隨著人工智慧(AI)領域的飛速發展,多模態生成技術正逐漸成為各行業中的關鍵創新工具。這項技術能夠將來自不同模態(如文字、圖像、音頻、視頻等)的信息整合並生成新的內容,不僅提升了數據處理的效率,還為智能應用的創新提供了無限可能性。然而,儘管其潛
Thumbnail
近日,OpenAI再度掀起AI領域的巨浪,宣布ChatGPT正式進化成GPT-4。這一次的更新不僅僅讓ChatGPT變得更聰明,還引入了圖像辨識和文本輸入功能,使得ChatGPT成為一個多模態的工具。本文將深入探討ChatGPT 4的新功能、付費方案以及其在不同領域的應用。
Thumbnail
文字生成圖片的擴散生成模型,實際應用上並沒有想像中好用,原因在於,文字能夠乘載的訊息量太少,要產生好的生成結果一定程度仰賴特定的Prompt描述方法,如DALL-E3使用GPT4不斷增加描述的細節,讓文生圖的結果更好,有沒有更有效率的方式呢?
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
大型多模態模型(LMMs)作為生成式人工智慧的前沿技術,擁有處理語音、文本和圖像等資料的能力,廣泛應用於健康醫療領域,包括疾病診斷和患者管理。然而,這些技術的發展同時帶來倫理和治理挑戰。本文深入探討 LMMs 在醫療領域的應用和挑戰。
🌟 多模態生成式AI:人工智慧的下一個革命 引言 人工智慧(AI)正處於一場前所未有的變革之中,而多模態生成式AI無疑是這場革命中的一個關鍵驅動力。這項技術突破了傳統單一模態AI的限制,允許系統從多個不同的數據來源(如文字、圖像、音頻、視頻等)進行學習和生成。這不僅開啟了全新的應用場景,還在各
🔍 解鎖AI潛力:多模態生成技術的應用與挑戰 引言 隨著人工智慧(AI)領域的飛速發展,多模態生成技術正逐漸成為各行業中的關鍵創新工具。這項技術能夠將來自不同模態(如文字、圖像、音頻、視頻等)的信息整合並生成新的內容,不僅提升了數據處理的效率,還為智能應用的創新提供了無限可能性。然而,儘管其潛
Thumbnail
近日,OpenAI再度掀起AI領域的巨浪,宣布ChatGPT正式進化成GPT-4。這一次的更新不僅僅讓ChatGPT變得更聰明,還引入了圖像辨識和文本輸入功能,使得ChatGPT成為一個多模態的工具。本文將深入探討ChatGPT 4的新功能、付費方案以及其在不同領域的應用。
Thumbnail
文字生成圖片的擴散生成模型,實際應用上並沒有想像中好用,原因在於,文字能夠乘載的訊息量太少,要產生好的生成結果一定程度仰賴特定的Prompt描述方法,如DALL-E3使用GPT4不斷增加描述的細節,讓文生圖的結果更好,有沒有更有效率的方式呢?