付費限定

多模態詠唱外掛模型,輕量靈活有效,IP-Adapter by Hu & Jun et al

閱讀時間約 5 分鐘

文字生成圖片的擴散生成模型,實際應用上並沒有想像中好用,原因在於,文字能夠乘載的訊息量太少,要產生好的生成結果一定程度仰賴特定的Prompt描述方法,如DALL-E3使用GPT4不斷增加描述的細節,讓文生圖的結果更好,有沒有更有效率的方式呢?

這次要介紹的這篇,展示能同時應用圖片/ 深度圖 / 人體骨架圖 / 輪廓圖 / 分割圖 加上原有的文生圖擴散模型,來生成圖片,所需要訓練的外掛模型 IP-Adapter只需要調整約22MB的參數,訓練方式只需要使用Image Pair 配對圖,冷凍住原有的文生圖擴散模型,訓練時文字敘述可以是空的,讓少量參數不斷地根據輸出結果來倒傳遞調整Cross Attention輸出的向量,如下圖所示。

一篇好的論文最好要有一張架構全覽圖,讓讀者能快速掌握重點。

一篇好的論文最好要有一張架構全覽圖,讓讀者能快速掌握重點。


論文核心概念:

  1. 圖片往往能比文字帶來更多訊息,一張圖片往往勝過千言萬語
  2. 傳統做法僅僅將圖片向量與文字向量對齊,沒有完全拆開來善用圖片帶來的描述特徵
  3. 外掛模型能夠大幅降低參數成本與訓練成本,適用於各種文生圖擴散生成模型


論文主要手法:

這邊基本上是使用經典的擴散模型訓練方式,底下的數學描述部份看到是否感覺熟悉,收斂各種Condition,包含初始亂數種子,與Prompts,在不同擴散Step (t) 的L2 Norm,冷凍原本的擴散模型部分,只訓練調整外掛模型的部分。

raw-image


同時作者有說,他會隨機的把描述Condition拿掉,使用Class-Free Guidance (CFG) 技術來提升生成畫質,這種方式也可以看成是一種隨機擾動的方式,避免模型產生過早over-fitting的現象。但是加入CFG也就意味著要權衡生成的多樣性/準確性與高畫質這兩件事情,在拿掉條件以後,可看成是一種pixel-to-pixel的調整方式,專心提升畫質。

raw-image


以行動支持創作者!付費即可解鎖
本篇內容共 2392 字、0 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
96會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
發表第一個留言支持創作者!
知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B,能用較小的運算資源與參數量,打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀,抽取其中的核心概念,試圖打開技術的神秘面紗。
Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。
本篇文章為大家導讀近日火熱的Mamba Paper,新聞標題說它是Transformer的繼任者,是否真是如此? 讓我們一起一探究竟,本文著重介紹論文前半部分。
Starling-LM-7B近來火燙,有使用到本篇的C-RLFT技術,基於此基礎上可以把7B小模型的微調成績做到頂尖,一起來理解OpenChat 的 C-RLFT技術是如何實現的,所能產生的效果為何,以及探索為何能達到這樣好的成績。
微軟爸爸發論文教大家如何訓練與評估model,有完整的訓練思路與評估方法,雖然本篇沒有任何Fine-tune的手法,比較不接地氣,但是仍然可以當成一個好的參考範例,可以從中學到許多評估模型的角度與關鍵指標,改天會進行總結整理。
北京清華大學改進了傳統Stable Diffusion (SD) 文生圖的加速算法,讓SD這項技術,可以在筆電達到即時(Real Time)運算等級,讓我們一起來了解這項技術,期許未來能在各種應用上使用,或是看到源碼也不陌生。
知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B,能用較小的運算資源與參數量,打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀,抽取其中的核心概念,試圖打開技術的神秘面紗。
Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。
本篇文章為大家導讀近日火熱的Mamba Paper,新聞標題說它是Transformer的繼任者,是否真是如此? 讓我們一起一探究竟,本文著重介紹論文前半部分。
Starling-LM-7B近來火燙,有使用到本篇的C-RLFT技術,基於此基礎上可以把7B小模型的微調成績做到頂尖,一起來理解OpenChat 的 C-RLFT技術是如何實現的,所能產生的效果為何,以及探索為何能達到這樣好的成績。
微軟爸爸發論文教大家如何訓練與評估model,有完整的訓練思路與評估方法,雖然本篇沒有任何Fine-tune的手法,比較不接地氣,但是仍然可以當成一個好的參考範例,可以從中學到許多評估模型的角度與關鍵指標,改天會進行總結整理。
北京清華大學改進了傳統Stable Diffusion (SD) 文生圖的加速算法,讓SD這項技術,可以在筆電達到即時(Real Time)運算等級,讓我們一起來了解這項技術,期許未來能在各種應用上使用,或是看到源碼也不陌生。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
評估一個地方的房地產是否值得投資,看的不只是房子本身、周邊環境、地區目前的狀況、未來的發展潛力都是要列入考量的點。房地產本身的市場價值也會受到多重因素影響而漲或跌。這次把焦點再次放在羽田機場附近的開發,以及其中因為羽田機場開發案而受到市場關注的東急多摩川沿線的四個車站。
Thumbnail
在科技日新月異的今天,OpenAI再次帶來了令人震撼的消息。今年10月,OpenAI宣布將通過API向ChatGPT Plus和企業版用戶提供全新的文本生成圖片產品——DALL·E 3,這一創新不僅意味著ChatGPT將開啟多模態輸出模式,更代表著用戶將能夠通過文字輸入,直接在ChatGPT中生成各
Thumbnail
二○二二年末,插畫家大島智子與攝影家山本涉的創作組合「大島涉」舉辦首次個展,發表兩人共同創作作品,並推出這本zine。目前包含日本在內,應無任何實體書店販售。 「我們決定以下列順序和規則製作作品。 山本以兩人居住的城鎮拍攝對象進行攝影。 大島利用照片作畫。 兩人一同挑選展出作品。
Thumbnail
多摩,這件⋯⋯妳收下吧。 不論是待在西格莉德的身旁或是未來演員的道路上,我想都會需要一套正式的衣裝,希望妳會喜歡。 ──吉爾絲
Thumbnail
今日確診:323例,400例為校正回歸=723例 平日週一到週五在家裡作稿,週六日是我到影印店打工上班的日子。 這週我就只有週六到影印店上班,週日則請假。想說可以多少減少一些跟人群接觸的機會。 本來我以為今天影印店應該沒什麼客人因為時中部長叫大家在家裡沒必要不要出門,想說可以在店裡悠閒一點,聽聽音
Thumbnail
今日本土確診數:267例 同樣也是一個做稿日,我的坐息就是早上一起床先聽吳淡如的人生實用商學院PODCAST,10點開始工作做稿到下午約18點吃晚飯。 吃完晚飯後會小睡一下,再到附近公園跑步一邊聽李欣頻的線上課。跑完回來後開始做Lily的旅行英文會話作業,做完後洗澡先寫一些自己的日記或是看影片再睡
Thumbnail
防疫日記第二天。 其實跟第一天沒什麼差別,外出的話,我只有中午去圖書館的還書箱還書以及到客戶那邊送名片而己。 今天客戶發給我許多稿件都是網頁的BANNER廣告,所以工作量也不會變少,我一整天都在作稿當中度過。 2點時一樣有看阿中部長的報告,說是今天確診240,比昨天稍微
Thumbnail
參加了方格子舉辦的疫情日記活動,想說除了可以抽到一些很文青的獎品之外,更加是記錄台灣這一次疫情大爆發的心情。方格子的規定是記錄到5/28為止,希望到時可以解除三級了~~ 早上就得到一個朋友她說工作跟感情不順利之下的LINE訊息,她想要換工作但最近疫情不可能不方便換,我叫她先忍一陣子再說吧!的確目前
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
評估一個地方的房地產是否值得投資,看的不只是房子本身、周邊環境、地區目前的狀況、未來的發展潛力都是要列入考量的點。房地產本身的市場價值也會受到多重因素影響而漲或跌。這次把焦點再次放在羽田機場附近的開發,以及其中因為羽田機場開發案而受到市場關注的東急多摩川沿線的四個車站。
Thumbnail
在科技日新月異的今天,OpenAI再次帶來了令人震撼的消息。今年10月,OpenAI宣布將通過API向ChatGPT Plus和企業版用戶提供全新的文本生成圖片產品——DALL·E 3,這一創新不僅意味著ChatGPT將開啟多模態輸出模式,更代表著用戶將能夠通過文字輸入,直接在ChatGPT中生成各
Thumbnail
二○二二年末,插畫家大島智子與攝影家山本涉的創作組合「大島涉」舉辦首次個展,發表兩人共同創作作品,並推出這本zine。目前包含日本在內,應無任何實體書店販售。 「我們決定以下列順序和規則製作作品。 山本以兩人居住的城鎮拍攝對象進行攝影。 大島利用照片作畫。 兩人一同挑選展出作品。
Thumbnail
多摩,這件⋯⋯妳收下吧。 不論是待在西格莉德的身旁或是未來演員的道路上,我想都會需要一套正式的衣裝,希望妳會喜歡。 ──吉爾絲
Thumbnail
今日確診:323例,400例為校正回歸=723例 平日週一到週五在家裡作稿,週六日是我到影印店打工上班的日子。 這週我就只有週六到影印店上班,週日則請假。想說可以多少減少一些跟人群接觸的機會。 本來我以為今天影印店應該沒什麼客人因為時中部長叫大家在家裡沒必要不要出門,想說可以在店裡悠閒一點,聽聽音
Thumbnail
今日本土確診數:267例 同樣也是一個做稿日,我的坐息就是早上一起床先聽吳淡如的人生實用商學院PODCAST,10點開始工作做稿到下午約18點吃晚飯。 吃完晚飯後會小睡一下,再到附近公園跑步一邊聽李欣頻的線上課。跑完回來後開始做Lily的旅行英文會話作業,做完後洗澡先寫一些自己的日記或是看影片再睡
Thumbnail
防疫日記第二天。 其實跟第一天沒什麼差別,外出的話,我只有中午去圖書館的還書箱還書以及到客戶那邊送名片而己。 今天客戶發給我許多稿件都是網頁的BANNER廣告,所以工作量也不會變少,我一整天都在作稿當中度過。 2點時一樣有看阿中部長的報告,說是今天確診240,比昨天稍微
Thumbnail
參加了方格子舉辦的疫情日記活動,想說除了可以抽到一些很文青的獎品之外,更加是記錄台灣這一次疫情大爆發的心情。方格子的規定是記錄到5/28為止,希望到時可以解除三級了~~ 早上就得到一個朋友她說工作跟感情不順利之下的LINE訊息,她想要換工作但最近疫情不可能不方便換,我叫她先忍一陣子再說吧!的確目前