AI影像論文(04):DDPMs (Denoising Diffusion Probabilistic Models)

更新 發佈閱讀 6 分鐘
raw-image

上一篇影像論文講到了U-Net在資料收集的過程中就時常聽聞在鼎鼎大名的diffussion模型中很重要的一部分為U-Net因此這次繼續往下深入探討diffusion模型中的DDPMs。

📌論文簡介

raw-image

DDPM是近期蠻流行的影像生成模型,來自加州大學柏克萊分校的團隊所發表,最終表現在無條件CIFAR10數據集上,獲得了9.46的Inception分數和3.17的最佳FID分數。在256x256的LSUN數據集上,也得到了與ProgressiveGAN相似的樣本品質。

📌模型架構介紹

🐌Forward process (擴散)

raw-image

Forward process是diffussion模型中非常重要的一個部分,他的概念就是由一張圖片逐漸添加噪音,而這些雜訊為高斯分布(常態),最後變為高斯分布的噪音圖片。

為什麼diffussion模型要使用高斯分布去做擴散呢?


高斯分布:又稱為常態分布(Normal Distribution),會使用的一大原因是因為常態分佈在數學上的簡潔性,像是常態分佈的平均值或是變異數的線性組合也會是常態分佈,另一個原因是因為常態噪音會是連續且平滑的,圖片可以平滑的過渡到常態分佈,不會突然跳躍。

那我們是怎麼去做添加噪音的呢?可以看下方這張圖。

raw-image




🐌Reverse process (降噪)

raw-image

降噪的過程就是將我們擴散完的高斯分布的噪音圖片,不斷的去去掉我們添加的雜訊,進而慢慢地讓圖片更加清晰,直到產生一章無雜訊之圖片。

在降噪的時候我們會透過Denoise的方式去做降噪,這邊具體怎麼做呢?


(1)輸入我們想要降噪的圖像+時間序(t)。(2)資料進入雜訊預測的模型(我們要訓練的模型)(U-Net)(3)輸出預測出來的雜訊(4)將想降噪的圖像減掉預測出來的圖像,則為上一時間序之圖像(t-1)


raw-image

📌訓練&採樣演算法

raw-image

上方是論文中所提供的訓練以及採樣的演算法。我自己看這張圖也是霧颯颯,接下來我們來詳細的解釋吧~

🐌訓練演算法

raw-image

每次的訓練中我們會重複以下的動作:


(1)隨機選擇一個time step並做encode(2)根據公式增加噪音(3)立用隨機的time step以及噪音圖片訓練U-Net


import numpy as np

#我們需要定義擴散過程中使用的常數和參數,例如時間步數 𝑇、擴散係數、𝛼及其平方根。

T = 1000 # 定義時間步數

alpha = np.linspace(0.0001, 0.02, T) # 定義擴散係數,線性地從0.00010.02

sqrt_alpha = np.sqrt(alpha) # 計算擴散係數的平方根

sqrt_one_minus_alpha = np.sqrt(1 - alpha) # 計算 (1 - α) 的平方根

# 訓練算法的目的是優化 𝜖𝜃,使其能夠有效地表示從高斯噪聲轉換回數據的過程。

def train(q_sample, T, alpha, sqrt_alpha, sqrt_one_minus_alpha):

epsilon_theta = np.random.randn() # 初始猜測

for _ in range(10000): # 迭代直到收斂

x0 = q_sample() # 從數據分佈 q(x0) 取樣

t = np.random.randint(1, T + 1) # 從 {1, ..., T} 中均勻取樣 t

epsilon = np.random.randn() # 從 N(0, I) 取樣 epsilon

# 計算梯度下降步驟

epsilon_theta -= 0.001 * (epsilon_theta * sqrt_alpha[t] + sqrt_one_minus_alpha[t] * epsilon - x0) ** 2

# 收斂檢查

if np.linalg.norm(epsilon_theta) < 1e-5:

break

return epsilon_theta

🐌採樣演算法

raw-image

(1)從高斯分布中隨機選擇一個隨機值(初始樣本):X


(2)逐步從T到1移除噪音(e.g. T = 1000 # 定義時間步數)(3)在每個時間步T,如果 T 大於1,我們從標準高斯分佈中采樣一個隨機噪聲Z。(如果T等於1,則設Z為0。這是因為在最後一步不再需要添加額外的噪聲。)(4)使用去噪步驟更新x


def sample(epsilon_theta, T, alpha, sqrt_alpha, sqrt_one_minus_alpha):

# 從N(0, I)中採樣 xT

x = np.random.randn() # 逐步從T1進行迴圈

for t in range(T, 0, -1):

# 如果 t > 1,則從N(0, I)中採樣z,否則z = 0

z = np.random.randn() if t > 1 else 0

# 使用去噪步驟更新x

x = (x - (1 - alpha[t]) / sqrt_alpha[t] * epsilon_theta) / sqrt_alpha[t] + sqrt_one_minus_alpha[t] * z

# 返回最終生成的x0

return x

📌參考資料

論文:https://arxiv.org/pdf/2006.11239

文章:https://adam-study-note.medium.com/diffusion-model-denoising-diffusion-probabilistic-models-ddpm-%E8%A9%B3%E7%B4%B0%E4%BB%8B%E7%B4%B9-5ce77b6b64d4





留言
avatar-img
仁和的論文整理
5會員
11內容數
Hello 我是黃仁和 就讀於國立台北科技大學 資財系 目前剛升上大四 我的專長為資料科學領域目前專攻於影像 並且於台灣大哥大擔任影像AI實習生
仁和的論文整理的其他內容
2024/12/16
本文介紹了MureObjectStitch,一種基於ObjectStitch的影像合成模型。該模型運用了多參考微調策略,能夠在不同前景物件的影像中學習其不同姿態和視角,從而生成更真實的合成結果。法。
Thumbnail
2024/12/16
本文介紹了MureObjectStitch,一種基於ObjectStitch的影像合成模型。該模型運用了多參考微調策略,能夠在不同前景物件的影像中學習其不同姿態和視角,從而生成更真實的合成結果。法。
Thumbnail
2024/08/20
本文介紹了IMPRINT模型的架構與實作,該模型由Adobe研究團隊於2024年發表,採用Two Stage學習框架,並探討了在物體特徵保留和圖像合成之間的平衡。本文展示了IMPRINT在圖像合成領域的潛在應用價值,儘管模型尚未開源,但其架構與方法對未來研究具有指導意義。
Thumbnail
2024/08/20
本文介紹了IMPRINT模型的架構與實作,該模型由Adobe研究團隊於2024年發表,採用Two Stage學習框架,並探討了在物體特徵保留和圖像合成之間的平衡。本文展示了IMPRINT在圖像合成領域的潛在應用價值,儘管模型尚未開源,但其架構與方法對未來研究具有指導意義。
Thumbnail
2024/08/13
在過去的捐贈模式中,對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具,提供了有效且透明的捐贈過程。並且以Lokai品牌為例,展示瞭如何透過CHANGE平臺提升會員保留率,並加強企業與顧客之間的聯繫。
Thumbnail
2024/08/13
在過去的捐贈模式中,對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具,提供了有效且透明的捐贈過程。並且以Lokai品牌為例,展示瞭如何透過CHANGE平臺提升會員保留率,並加強企業與顧客之間的聯繫。
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
Thumbnail
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
Thumbnail
DDPM是最近備受矚目的影像生成模型,本文探討了DDPM中的擴散與降噪過程,以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除,DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理,請閱讀完整文章。
Thumbnail
DDPM是最近備受矚目的影像生成模型,本文探討了DDPM中的擴散與降噪過程,以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除,DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理,請閱讀完整文章。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
Thumbnail
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
Thumbnail
Enhance This HiDiffusion SDXL是一個AI模型,結合HiDiffusion和SDXL兩種圖像生成模型,可以根據既有影像和文字描述生成新的圖像,可用來提高圖像解析度、修復瑕疵、轉換風格和自由創造新的圖像。
Thumbnail
Enhance This HiDiffusion SDXL是一個AI模型,結合HiDiffusion和SDXL兩種圖像生成模型,可以根據既有影像和文字描述生成新的圖像,可用來提高圖像解析度、修復瑕疵、轉換風格和自由創造新的圖像。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News