付費限定

多模態詠唱外掛模型，輕量靈活有效，IP-Adapter by Hu & Jun et al

無限智慧學院

發佈於人工智慧宇宙

更新於 2024/12/30發佈於 2023/12/31閱讀時間約 5 分鐘

文字生成圖片的擴散生成模型，實際應用上並沒有想像中好用，原因在於，文字能夠乘載的訊息量太少，要產生好的生成結果一定程度仰賴特定的Prompt描述方法，如DALL-E3使用GPT4不斷增加描述的細節，讓文生圖的結果更好，有沒有更有效率的方式呢?

這次要介紹的這篇，展示能同時應用圖片/ 深度圖 / 人體骨架圖 / 輪廓圖 / 分割圖加上原有的文生圖擴散模型，來生成圖片，所需要訓練的外掛模型 IP-Adapter只需要調整約22MB的參數，訓練方式只需要使用Image Pair 配對圖，冷凍住原有的文生圖擴散模型，訓練時文字敘述可以是空的，讓少量參數不斷地根據輸出結果來倒傳遞調整Cross Attention輸出的向量，如下圖所示。

一篇好的論文最好要有一張架構全覽圖，讓讀者能快速掌握重點。

一篇好的論文最好要有一張架構全覽圖，讓讀者能快速掌握重點。

論文核心概念:

圖片往往能比文字帶來更多訊息，一張圖片往往勝過千言萬語
傳統做法僅僅將圖片向量與文字向量對齊，沒有完全拆開來善用圖片帶來的描述特徵
外掛模型能夠大幅降低參數成本與訓練成本，適用於各種文生圖擴散生成模型

論文主要手法:

這邊基本上是使用經典的擴散模型訓練方式，底下的數學描述部份看到是否感覺熟悉，收斂各種Condition，包含初始亂數種子，與Prompts，在不同擴散Step (t) 的L2 Norm，冷凍原本的擴散模型部分，只訓練調整外掛模型的部分。

raw-image

同時作者有說，他會隨機的把描述Condition拿掉，使用Class-Free Guidance (CFG) 技術來提升生成畫質，這種方式也可以看成是一種隨機擾動的方式，避免模型產生過早over-fitting的現象。但是加入CFG也就意味著要權衡生成的多樣性/準確性與高畫質這兩件事情，在拿掉條件以後，可看成是一種pixel-to-pixel的調整方式，專心提升畫質。

raw-image

以行動支持創作者！付費即可解鎖

本篇內容共 2392 字、0 則留言，僅發佈於人工智慧宇宙你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

#DiffusionModel

#AI外接模組

#風格轉換神器

#AI論文詳解

#CrossAttention

#22M外掛模組

無限智慧學院的沙龍人工智慧宇宙AI論文詳解

留言

留言分享你的想法！

無限智慧學院的沙龍

95會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

無限智慧學院的沙龍的其他內容

2024/02/28

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

這次要介紹的這篇，使用Mask-LM的生成方式，可以達到最頂尖的FID/FVD分數，取得超越Diffusion Model的生成品質，並兼顧了生成速度，讓我們一起從MAGVIT開始，逐步理解到MAGVIT-V2，相信能讓對於最新影像生成領域有興趣的讀者，感到收穫滿滿。

2024/02/28

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

這次要介紹的這篇，使用Mask-LM的生成方式，可以達到最頂尖的FID/FVD分數，取得超越Diffusion Model的生成品質，並兼顧了生成速度，讓我們一起從MAGVIT開始，逐步理解到MAGVIT-V2，相信能讓對於最新影像生成領域有興趣的讀者，感到收穫滿滿。

2024/02/20

快速準確AI預測全球天氣 with GraphCast by Google Research Lam et al.

對於天氣的精密掌握，不僅得以改善各種生存條件，還能藉此訂定各種軍事策略，對於各種地緣政治紛爭的此刻，有其重大意義，於是各國對於快速準確的天氣預測技術，皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣，誤差可以勝過傳統超級計算機的估算，讓我們一起看看是怎麼做到的。

2024/02/20

快速準確AI預測全球天氣 with GraphCast by Google Research Lam et al.

對於天氣的精密掌握，不僅得以改善各種生存條件，還能藉此訂定各種軍事策略，對於各種地緣政治紛爭的此刻，有其重大意義，於是各國對於快速準確的天氣預測技術，皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣，誤差可以勝過傳統超級計算機的估算，讓我們一起看看是怎麼做到的。

2024/02/10

緊湊型神經網路壓縮技術 for NeRF by Nvidia Takikawa et al.

隨著生成式AI不斷的推陳出新，對於能有效壓縮這些豐富且大量內容的技術，變得至關重要，影響著傳輸速度與執行速度，本文的壓縮架構，能夠有效地做成專用IC，在同樣的畫質水準下，甚至能夠達成JPEG 1/3的壓縮後容量，此方法可應用在各種3D NeRF生成作品上面，各種VR與3D生成技術都必然會用到。

2024/02/10

緊湊型神經網路壓縮技術 for NeRF by Nvidia Takikawa et al.

隨著生成式AI不斷的推陳出新，對於能有效壓縮這些豐富且大量內容的技術，變得至關重要，影響著傳輸速度與執行速度，本文的壓縮架構，能夠有效地做成專用IC，在同樣的畫質水準下，甚至能夠達成JPEG 1/3的壓縮後容量，此方法可應用在各種3D NeRF生成作品上面，各種VR與3D生成技術都必然會用到。

你可能也想看

小愛和彤彤的小日常的沙龍

告別瞇眼寫功課！喜光TIONE⁺光健康智慧檯燈守護孩子視力

孩子寫功課時瞇眼？小心近視！這款喜光全光譜TIONE⁺光健康智慧檯燈，獲眼科院長推薦，網路好評不斷！全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉，讓孩子學習更舒適、保護眼睛！

#方格新手#保護眼睛#閱讀

2025/06/21

小愛和彤彤的小日常的沙龍

告別瞇眼寫功課！喜光TIONE⁺光健康智慧檯燈守護孩子視力

孩子寫功課時瞇眼？小心近視！這款喜光全光譜TIONE⁺光健康智慧檯燈，獲眼科院長推薦，網路好評不斷！全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉，讓孩子學習更舒適、保護眼睛！

#方格新手#保護眼睛#閱讀

2025/06/21

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

創作者營運專員/經理（Operations Specialist/Manager）將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力，找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。

#vocus#方格子#求職

2025/06/23

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

創作者營運專員/經理（Operations Specialist/Manager）將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力，找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。

#vocus#方格子#求職

2025/06/23

隴千的沙龍

【雜記】來試試AI工具!(2)ideogram生成圖片

目前使用ideogram，免費的額度一天 10 slow prompts，然後需要等待幾十秒到一分多鐘的時間產圖。產出來的圖片還不錯，免費方案的也有幾款風格可以選擇，但產出的圖片只能下載非最高畫質的JPEG檔。

#雜記#使用心得#ideogram

2024/08/14

隴千的沙龍

【雜記】來試試AI工具!(2)ideogram生成圖片

目前使用ideogram，免費的額度一天 10 slow prompts，然後需要等待幾十秒到一分多鐘的時間產圖。產出來的圖片還不錯，免費方案的也有幾款風格可以選擇，但產出的圖片只能下載非最高畫質的JPEG檔。

#雜記#使用心得#ideogram

2024/08/14

《創作者事業研究室》沙龍

【新手ＡＩ行銷線上課，簡單快速製文製圖製影片】

【新手ＡＩ行銷線上課，簡單快速製文製圖製影片】

#啟發隨想#新手AI行銷線上課#銷售頁

2024/06/09

《創作者事業研究室》沙龍

【新手ＡＩ行銷線上課，簡單快速製文製圖製影片】

【新手ＡＩ行銷線上課，簡單快速製文製圖製影片】

#啟發隨想#新手AI行銷線上課#銷售頁

2024/06/09

Enhance This HiDiffusion SDXL 免費 AI 以圖生圖模型

Enhance This HiDiffusion SDXL是一個AI模型，結合HiDiffusion和SDXL兩種圖像生成模型，可以根據既有影像和文字描述生成新的圖像，可用來提高圖像解析度、修復瑕疵、轉換風格和自由創造新的圖像。

#AI繪圖#AI模型#SDXL

2024/06/01

Enhance This HiDiffusion SDXL 免費 AI 以圖生圖模型

Enhance This HiDiffusion SDXL是一個AI模型，結合HiDiffusion和SDXL兩種圖像生成模型，可以根據既有影像和文字描述生成新的圖像，可用來提高圖像解析度、修復瑕疵、轉換風格和自由創造新的圖像。

#AI繪圖#AI模型#SDXL

2024/06/01

ComfyUI研究 - IPAdapter FaceID

測試一下 IPAdapter FaceID

#comfyui#stablediffusion#AI繪圖

2024/04/01

ComfyUI研究 - IPAdapter FaceID

測試一下 IPAdapter FaceID

#comfyui#stablediffusion#AI繪圖

2024/04/01

ComfyUI 研究 - 多人構圖（一）

AI生成圖片並非完全可控，所以需要很多額外手段去控制，這篇要來試試幾個方法讓生成的圖片更加可控。

#comfyui#stablediffusion#AI繪圖

2024/03/19

ComfyUI 研究 - 多人構圖（一）

AI生成圖片並非完全可控，所以需要很多額外手段去控制，這篇要來試試幾個方法讓生成的圖片更加可控。

#comfyui#stablediffusion#AI繪圖

2024/03/19

學習分享的沙龍

#12/100日更-firefly 提示詞模組化

以文字建立影像，有很多功能如下: 完成提示詞之後，選擇功能設定 1.模型版本:內有兩個模型 Image1屬於照片和插圖風格，Image2擬真人版風格，我還是喜歡Image2風格比較好看。 2.比例:3:4或4:3或1:1或16:9，這個有別於目前AI生圖都是1:1版型，這可以依據您想要使

#firefly#AI生圖#唐詩

2024/02/24

學習分享的沙龍

#12/100日更-firefly 提示詞模組化

以文字建立影像，有很多功能如下: 完成提示詞之後，選擇功能設定 1.模型版本:內有兩個模型 Image1屬於照片和插圖風格，Image2擬真人版風格，我還是喜歡Image2風格比較好看。 2.比例:3:4或4:3或1:1或16:9，這個有別於目前AI生圖都是1:1版型，這可以依據您想要使

#firefly#AI生圖#唐詩

2024/02/24

ComfyUI 研究 - Stablezero123

這是一個簡單的工作流，可以對輸入的圖片進行3D重建

2024/01/24

ComfyUI 研究 - Stablezero123

這是一個簡單的工作流，可以對輸入的圖片進行3D重建

2024/01/24

ComfyUI 研究 - 任意圖像放大

前篇測試如何把提示詞生成的圖像細節提高，這篇要測試的工作流是把任意圖像載入後經由放大模型放大，同時測試放大後重繪看看效果如何。

#comfyui#StableDiffusion#AI繪圖

2024/01/20

ComfyUI 研究 - 任意圖像放大

前篇測試如何把提示詞生成的圖像細節提高，這篇要測試的工作流是把任意圖像載入後經由放大模型放大，同時測試放大後重繪看看效果如何。

#comfyui#StableDiffusion#AI繪圖

2024/01/20

無限智慧學院的沙龍

多模態詠唱外掛模型，輕量靈活有效，IP-Adapter by Hu & Jun et al

文字生成圖片的擴散生成模型，實際應用上並沒有想像中好用，原因在於，文字能夠乘載的訊息量太少，要產生好的生成結果一定程度仰賴特定的Prompt描述方法，如DALL-E3使用GPT4不斷增加描述的細節，讓文生圖的結果更好，有沒有更有效率的方式呢?

#IPAdapter#DiffusionModel#圖文生圖

2023/12/31

無限智慧學院的沙龍

多模態詠唱外掛模型，輕量靈活有效，IP-Adapter by Hu & Jun et al

文字生成圖片的擴散生成模型，實際應用上並沒有想像中好用，原因在於，文字能夠乘載的訊息量太少，要產生好的生成結果一定程度仰賴特定的Prompt描述方法，如DALL-E3使用GPT4不斷增加描述的細節，讓文生圖的結果更好，有沒有更有效率的方式呢?

#IPAdapter#DiffusionModel#圖文生圖

2023/12/31

卡比的工程師之旅的沙龍

介紹好用的產圖工具 Fake images ，快速產出示意圖讓版面更完整！

Fake image 快速產圖

2023/12/29

卡比的工程師之旅的沙龍

介紹好用的產圖工具 Fake images ，快速產出示意圖讓版面更完整！

Fake image 快速產圖

2023/12/29

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News