文字生成圖片的擴散生成模型,實際應用上並沒有想像中好用,原因在於,文字能夠乘載的訊息量太少,要產生好的生成結果一定程度仰賴特定的Prompt描述方法,如DALL-E3使用GPT4不斷增加描述的細節,讓文生圖的結果更好,有沒有更有效率的方式呢?
這次要介紹的這篇,展示能同時應用圖片/ 深度圖 / 人體骨架圖 / 輪廓圖 / 分割圖 加上原有的文生圖擴散模型,來生成圖片,所需要訓練的外掛模型 IP-Adapter只需要調整約22MB的參數,訓練方式只需要使用Image Pair 配對圖,冷凍住原有的文生圖擴散模型,訓練時文字敘述可以是空的,讓少量參數不斷地根據輸出結果來倒傳遞調整Cross Attention輸出的向量,如下圖所示。
這邊基本上是使用經典的擴散模型訓練方式,底下的數學描述部份看到是否感覺熟悉,收斂各種Condition,包含初始亂數種子,與Prompts,在不同擴散Step (t) 的L2 Norm,冷凍原本的擴散模型部分,只訓練調整外掛模型的部分。
同時作者有說,他會隨機的把描述Condition拿掉,使用Class-Free Guidance (CFG) 技術來提升生成畫質,這種方式也可以看成是一種隨機擾動的方式,避免模型產生過早over-fitting的現象。但是加入CFG也就意味著要權衡生成的多樣性/準確性與高畫質這兩件事情,在拿掉條件以後,可看成是一種pixel-to-pixel的調整方式,專心提升畫質。