付費限定

多模態詠唱外掛模型，輕量靈活有效，IP-Adapter by Hu & Jun et al

2023/12/31閱讀時間約 5 分鐘

文字生成圖片的擴散生成模型，實際應用上並沒有想像中好用，原因在於，文字能夠乘載的訊息量太少，要產生好的生成結果一定程度仰賴特定的Prompt描述方法，如DALL-E3使用GPT4不斷增加描述的細節，讓文生圖的結果更好，有沒有更有效率的方式呢?

這次要介紹的這篇，展示能同時應用圖片/ 深度圖 / 人體骨架圖 / 輪廓圖 / 分割圖加上原有的文生圖擴散模型，來生成圖片，所需要訓練的外掛模型 IP-Adapter只需要調整約22MB的參數，訓練方式只需要使用Image Pair 配對圖，冷凍住原有的文生圖擴散模型，訓練時文字敘述可以是空的，讓少量參數不斷地根據輸出結果來倒傳遞調整Cross Attention輸出的向量，如下圖所示。

一篇好的論文最好要有一張架構全覽圖，讓讀者能快速掌握重點。

論文核心概念:

圖片往往能比文字帶來更多訊息，一張圖片往往勝過千言萬語
傳統做法僅僅將圖片向量與文字向量對齊，沒有完全拆開來善用圖片帶來的描述特徵
外掛模型能夠大幅降低參數成本與訓練成本，適用於各種文生圖擴散生成模型

論文主要手法:

這邊基本上是使用經典的擴散模型訓練方式，底下的數學描述部份看到是否感覺熟悉，收斂各種Condition，包含初始亂數種子，與Prompts，在不同擴散Step (t) 的L2 Norm，冷凍原本的擴散模型部分，只訓練調整外掛模型的部分。

同時作者有說，他會隨機的把描述Condition拿掉，使用Class-Free Guidance (CFG) 技術來提升生成畫質，這種方式也可以看成是一種隨機擾動的方式，避免模型產生過早over-fitting的現象。但是加入CFG也就意味著要權衡生成的多樣性/準確性與高畫質這兩件事情，在拿掉條件以後，可看成是一種pixel-to-pixel的調整方式，專心提升畫質。

以行動支持創作者！付費即可解鎖

本篇內容共 2392 字、0 則留言，僅發佈於人工智慧宇宙你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

無限智慧學院的沙龍人工智慧宇宙AI論文詳解

無限智慧學院的沙龍

96會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

留言0

查看全部

發表第一個留言支持創作者！

無限智慧學院的沙龍的其他內容

8個專家小模型勝過ChatGPT3，SMoE論文導讀 for Mixtral-8x7B

知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B，能用較小的運算資源與參數量，打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀，抽取其中的核心概念，試圖打開技術的神秘面紗。

#Mixtral8x7b #SMOE #SparseMOE

對抗擴散生成蒸餾(ADD) 讓生成模型快又有效

Stability AI在圖片/影片/聲音生成領域貢獻了不少心力，近期提出了更加高效率的對抗生成蒸餾方法，只需進行一步計算，便能打敗LCM需要4步計算的結果，來看看具體是如何做到的。

#對抗生成模型 #對抗生成蒸餾 #StabilityAI

需時間驗證的Transformer挑戰者，Mamba (Albert Gu & Tri Dao)

本篇文章為大家導讀近日火熱的Mamba Paper，新聞標題說它是Transformer的繼任者，是否真是如此? 讓我們一起一探究竟，本文著重介紹論文前半部分。

#Mamba #FlashAttention #SSMs

奢華與平價教材一起拿來學，C-RLFT，Openchat's tricks for finetune

Starling-LM-7B近來火燙，有使用到本篇的C-RLFT技術，基於此基礎上可以把7B小模型的微調成績做到頂尖，一起來理解OpenChat 的 C-RLFT技術是如何實現的，所能產生的效果為何，以及探索為何能達到這樣好的成績。

#AI論文詳解 #CRLFT #ConditionedRL

訓練小模型進行逐步推導，Orca-2-7B/13B

微軟爸爸發論文教大家如何訓練與評估model，有完整的訓練思路與評估方法，雖然本篇沒有任何Fine-tune的手法，比較不接地氣，但是仍然可以當成一個好的參考範例，可以從中學到許多評估模型的角度與關鍵指標，改天會進行總結整理。

#Orca2 #逐步推導 #LLM小模型研究

即時生圖應用大行其道，LCM手法理解與未來應用

北京清華大學改進了傳統Stable Diffusion (SD) 文生圖的加速算法，讓SD這項技術，可以在筆電達到即時(Real Time)運算等級，讓我們一起來了解這項技術，期許未來能在各種應用上使用，或是看到源碼也不陌生。

#LCM #北京清華大學 #文字生圖片

8個專家小模型勝過ChatGPT3，SMoE論文導讀 for Mixtral-8x7B

#Mixtral8x7b #SMOE #SparseMOE

對抗擴散生成蒸餾(ADD) 讓生成模型快又有效

#對抗生成模型 #對抗生成蒸餾 #StabilityAI

需時間驗證的Transformer挑戰者，Mamba (Albert Gu & Tri Dao)

本篇文章為大家導讀近日火熱的Mamba Paper，新聞標題說它是Transformer的繼任者，是否真是如此? 讓我們一起一探究竟，本文著重介紹論文前半部分。

#Mamba #FlashAttention #SSMs

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

這個秋，Chill 嗨嗨！穿搭美美去賞楓，裝備款款去露營⋯⋯你的秋天怎麼過？秋日 To Do List 等你分享！秋季全站徵文，我們準備了五個創作主題，參賽還有機會獲得「火烤兩用鍋」，一起來看看如何參加吧～

#天天秋嗨嗨 #秋季旅遊 #秋季穿搭

MimiVsJames的美股投資分享

2024/11/03

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

美國總統大選只剩下三天，我們觀察一整週民調與金融市場的變化（包含賭局），到本週五下午3:00前為止，誰是美國總統幾乎大概可以猜到60-70%的機率，本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變

#美股 #美國大選 #投資理財

矮袋鼠律師的沙龍

2024/11/03

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

Faker昨天真的太扯了，中國主播王多多點評的話更是精妙，分享給各位王多多的點評「Faker是我們的處境，他是LPL永遠繞不開的一個人和話題，所以我們特別渴望在決賽跟他相遇，去直面我們的處境。我們曾經稱他為最高的山，最長的河，以為山海就是盡頭，可是Faker用他28歲的年齡...

#Faker #電競 #運動

日商神居秒算＿日本不動產的沙龍

2023/10/23

羽田機場沿線注目車站有哪些？東急多摩川線再開發市區對機場聯外交通更便捷

評估一個地方的房地產是否值得投資，看的不只是房子本身、周邊環境、地區目前的狀況、未來的發展潛力都是要列入考量的點。房地產本身的市場價值也會受到多重因素影響而漲或跌。這次把焦點再次放在羽田機場附近的開發，以及其中因為羽田機場開發案而受到市場關注的東急多摩川沿線的四個車站。

#羽田機場 #商店街 #車站

蒲公英創意商業研究所的沙龍

2023/09/21

ChatGPT即將更新：與DALL·E 3的結合，開創多模態輸出的新時代！

在科技日新月異的今天，OpenAI再次帶來了令人震撼的消息。今年10月，OpenAI宣布將通過API向ChatGPT Plus和企業版用戶提供全新的文本生成圖片產品——DALL·E 3，這一創新不僅意味著ChatGPT將開啟多模態輸出模式，更代表著用戶將能夠通過文字輸入，直接在ChatGPT中生成各

#ChatGPT #OpenAI #商業