更新於 2023/12/31閱讀時間約 5 分鐘

多模態詠唱外掛模型,輕量靈活有效,IP-Adapter by Hu & Jun et al

文字生成圖片的擴散生成模型,實際應用上並沒有想像中好用,原因在於,文字能夠乘載的訊息量太少,要產生好的生成結果一定程度仰賴特定的Prompt描述方法,如DALL-E3使用GPT4不斷增加描述的細節,讓文生圖的結果更好,有沒有更有效率的方式呢?

這次要介紹的這篇,展示能同時應用圖片/ 深度圖 / 人體骨架圖 / 輪廓圖 / 分割圖 加上原有的文生圖擴散模型,來生成圖片,所需要訓練的外掛模型 IP-Adapter只需要調整約22MB的參數,訓練方式只需要使用Image Pair 配對圖,冷凍住原有的文生圖擴散模型,訓練時文字敘述可以是空的,讓少量參數不斷地根據輸出結果來倒傳遞調整Cross Attention輸出的向量,如下圖所示。

一篇好的論文最好要有一張架構全覽圖,讓讀者能快速掌握重點。


論文核心概念:

  1. 圖片往往能比文字帶來更多訊息,一張圖片往往勝過千言萬語
  2. 傳統做法僅僅將圖片向量與文字向量對齊,沒有完全拆開來善用圖片帶來的描述特徵
  3. 外掛模型能夠大幅降低參數成本與訓練成本,適用於各種文生圖擴散生成模型


論文主要手法:

這邊基本上是使用經典的擴散模型訓練方式,底下的數學描述部份看到是否感覺熟悉,收斂各種Condition,包含初始亂數種子,與Prompts,在不同擴散Step (t) 的L2 Norm,冷凍原本的擴散模型部分,只訓練調整外掛模型的部分。


同時作者有說,他會隨機的把描述Condition拿掉,使用Class-Free Guidance (CFG) 技術來提升生成畫質,這種方式也可以看成是一種隨機擾動的方式,避免模型產生過早over-fitting的現象。但是加入CFG也就意味著要權衡生成的多樣性/準確性與高畫質這兩件事情,在拿掉條件以後,可看成是一種pixel-to-pixel的調整方式,專心提升畫質。


分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.