AI影像論文(04)：DDPMs (Denoising Diffusion Probabilistic Models)

更新於 2024/07/03發佈於 2024/07/03閱讀時間約 6 分鐘

上一篇影像論文講到了U-Net在資料收集的過程中就時常聽聞在鼎鼎大名的diffussion模型中很重要的一部分為U-Net因此這次繼續往下深入探討diffusion模型中的DDPMs。

📌論文簡介

DDPM是近期蠻流行的影像生成模型，來自加州大學柏克萊分校的團隊所發表，最終表現在無條件CIFAR10數據集上，獲得了9.46的Inception分數和3.17的最佳FID分數。在256x256的LSUN數據集上，也得到了與ProgressiveGAN相似的樣本品質。

📌模型架構介紹

🐌Forward process (擴散)

Forward process是diffussion模型中非常重要的一個部分，他的概念就是由一張圖片逐漸添加噪音，而這些雜訊為高斯分布(常態)，最後變為高斯分布的噪音圖片。

為什麼diffussion模型要使用高斯分布去做擴散呢?

高斯分布：又稱為常態分布（Normal Distribution），會使用的一大原因是因為常態分佈在數學上的簡潔性，像是常態分佈的平均值或是變異數的線性組合也會是常態分佈，另一個原因是因為常態噪音會是連續且平滑的，圖片可以平滑的過渡到常態分佈，不會突然跳躍。

那我們是怎麼去做添加噪音的呢?可以看下方這張圖。

🐌Reverse process (降噪)

降噪的過程就是將我們擴散完的高斯分布的噪音圖片，不斷的去去掉我們添加的雜訊，進而慢慢地讓圖片更加清晰，直到產生一章無雜訊之圖片。

在降噪的時候我們會透過Denoise的方式去做降噪，這邊具體怎麼做呢?

（1）輸入我們想要降噪的圖像＋時間序（t）。（2）資料進入雜訊預測的模型(我們要訓練的模型)(U-Net)（3）輸出預測出來的雜訊（4）將想降噪的圖像減掉預測出來的圖像，則為上一時間序之圖像（t-1）

📌訓練＆採樣演算法

上方是論文中所提供的訓練以及採樣的演算法。我自己看這張圖也是霧颯颯，接下來我們來詳細的解釋吧～

🐌訓練演算法

每次的訓練中我們會重複以下的動作：

（1）隨機選擇一個time step並做encode（2）根據公式增加噪音（3）立用隨機的time step以及噪音圖片訓練U-Net

import numpy as np

#我們需要定義擴散過程中使用的常數和參數，例如時間步數 𝑇、擴散係數、𝛼及其平方根。

T = 1000  # 定義時間步數

alpha = np.linspace(0.0001, 0.02, T)  # 定義擴散係數，線性地從0.0001到0.02

sqrt_alpha = np.sqrt(alpha)  # 計算擴散係數的平方根

sqrt_one_minus_alpha = np.sqrt(1 - alpha)  # 計算 (1 - α) 的平方根

# 訓練算法的目的是優化 𝜖𝜃，使其能夠有效地表示從高斯噪聲轉換回數據的過程。

def train(q_sample, T, alpha, sqrt_alpha, sqrt_one_minus_alpha):

    epsilon_theta = np.random.randn()  # 初始猜測

    for _ in range(10000):  # 迭代直到收斂

        x0 = q_sample()  # 從數據分佈 q(x0) 取樣

        t = np.random.randint(1, T + 1)  # 從 {1, ..., T} 中均勻取樣 t

        epsilon = np.random.randn()  # 從 N(0, I) 取樣 epsilon

        # 計算梯度下降步驟

        epsilon_theta -= 0.001 * (epsilon_theta * sqrt_alpha[t] + sqrt_one_minus_alpha[t] * epsilon - x0) ** 2

        # 收斂檢查

        if np.linalg.norm(epsilon_theta) < 1e-5:

            break

    return epsilon_theta

🐌採樣演算法

（1）從高斯分布中隨機選擇一個隨機值(初始樣本)：X

（2）逐步從T到1移除噪音(e.g. T = 1000 # 定義時間步數)（3）在每個時間步T，如果 T 大於1，我們從標準高斯分佈中采樣一個隨機噪聲Z。(如果T等於1，則設Z為0。這是因為在最後一步不再需要添加額外的噪聲。)（4）使用去噪步驟更新x

def sample(epsilon_theta, T, alpha, sqrt_alpha, sqrt_one_minus_alpha):

    # 從N(0, I)中採樣 xT

    x = np.random.randn()    # 逐步從T到1進行迴圈

    for t in range(T, 0, -1):

        # 如果 t > 1，則從N(0, I)中採樣z，否則z = 0

        z = np.random.randn() if t > 1 else 0

        # 使用去噪步驟更新x

        x = (x - (1 - alpha[t]) / sqrt_alpha[t] * epsilon_theta) / sqrt_alpha[t] + sqrt_one_minus_alpha[t] * z

    # 返回最終生成的x0

    return x

📌參考資料

論文：https://arxiv.org/pdf/2006.11239

文章：https://adam-study-note.medium.com/diffusion-model-denoising-diffusion-probabilistic-models-ddpm-%E8%A9%B3%E7%B4%B0%E4%BB%8B%E7%B4%B9-5ce77b6b64d4

留言

留言分享你的想法！

仁和的論文整理

3會員

11內容數

Hello 我是黃仁和就讀於國立台北科技大學資財系目前剛升上大四我的專長為資料科學領域目前專攻於影像並且於台灣大哥大擔任影像AI實習生

仁和的論文整理的其他內容

2024/12/16

AI影像論文(08)：MureObjectStitch影像合成模型-論文筆記整理

本文介紹了MureObjectStitch，一種基於ObjectStitch的影像合成模型。該模型運用了多參考微調策略，能夠在不同前景物件的影像中學習其不同姿態和視角，從而生成更真實的合成結果。法。

2024/12/16

AI影像論文(08)：MureObjectStitch影像合成模型-論文筆記整理

2024/08/20

AI影像論文(07)：IMPRINT影像合成模型-論文筆記整理

本文介紹了IMPRINT模型的架構與實作，該模型由Adobe研究團隊於2024年發表，採用Two Stage學習框架，並探討了在物體特徵保留和圖像合成之間的平衡。本文展示了IMPRINT在圖像合成領域的潛在應用價值，儘管模型尚未開源，但其架構與方法對未來研究具有指導意義。

2024/08/20

AI影像論文(07)：IMPRINT影像合成模型-論文筆記整理

2024/08/13

利用Solana區塊鏈技術實現透明慈善：透過 Change 平台改變捐贈模式

在過去的捐贈模式中，對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具，提供了有效且透明的捐贈過程。並且以Lokai品牌為例，展示瞭如何透過CHANGE平臺提升會員保留率，並加強企業與顧客之間的聯繫。

2024/08/13

利用Solana區塊鏈技術實現透明慈善：透過 Change 平台改變捐贈模式

看更多

你可能也想看

渡狼／DL

蝦皮開箱｜TOMICA 吉伊卡哇烏薩奇兔兔小車

TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空，一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮，突然發現幾家商場都又開始重新上架，價格也都回到正常水準，估計是官方又再補了一批貨，想都沒想就立刻下單！同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷！

#吉伊卡哇#開箱#蝦皮分潤計畫

2025/05/13

渡狼／DL

蝦皮開箱｜TOMICA 吉伊卡哇烏薩奇兔兔小車

#吉伊卡哇#開箱#蝦皮分潤計畫

2025/05/13

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

仁和的論文整理

探索41個讓你驚豔的AI影像生成模型論文

本文探討了影像生成模型的多種應用，包括文字、圖像和聲音到影片的生成，涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究，分析影像生成技術的未來趨勢與挑戰，為讀者提供全面的理解與啟示。

2024/08/13

2024/08/13

筆記-深度學習模型訓練：利用殘差網路做影像辨識

前言讀了許多理論，是時候實際動手做做看了，以下是我的模型訓練初體驗，有點糟就是了XD。正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,

#深度學習#AI#人工智慧

2024/07/23

柴郡貓姍蒂的沙龍

筆記-深度學習模型訓練：利用殘差網路做影像辨識

#深度學習#AI#人工智慧

2024/07/23

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片，以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構，並詳細探討了訓練模型的方法以及不同的影像資料集來源。

#模型#視頻#數據

2024/07/05

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

#模型#視頻#數據

2024/07/05

仁和的論文整理

AI影像論文(05)：StableDiffusion非對稱性VQGAN

VQGAN是一種基於GAN(生成對抗式網路)的生成式模型，可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構，並提出了一種新的非對稱式VQGAN，具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。

#論文#AI#資料科學

2024/07/04

仁和的論文整理

AI影像論文(05)：StableDiffusion非對稱性VQGAN

#論文#AI#資料科學

2024/07/04

仁和的論文整理

AI影像論文(04)：DDPMs (Denoising Diffusion Probabilistic Models)

DDPM是最近備受矚目的影像生成模型，本文探討了DDPM中的擴散與降噪過程，以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除，DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理，請閱讀完整文章。

#模型#噪音#擴散

2024/07/03

仁和的論文整理

AI影像論文(04)：DDPMs (Denoising Diffusion Probabilistic Models)

#模型#噪音#擴散

2024/07/03

仁和的論文整理

AI影像論文(02)：ControlCom影像合成模型-論文筆記整理

本文章介紹了ControlCom影像合成模型的技術與架構，以及其與其他方法的比較。模型具有可控的圖像合成能力，並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構，以及數據準備和結果與結論。

#模型#影像#背景

2024/07/03

仁和的論文整理

AI影像論文(02)：ControlCom影像合成模型-論文筆記整理

#模型#影像#背景

2024/07/03

仁和的論文整理

AI影像論文(01)：影像合成是如何實現的?Making Images Real Again: A Comprehens

本文介紹了影像合成任務及其歷史解決方案，包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法，並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。

#影像#AI#論文

2024/07/03

仁和的論文整理

AI影像論文(01)：影像合成是如何實現的?Making Images Real Again: A Comprehens

#影像#AI#論文

2024/07/03

逍遙資訊

Enhance This HiDiffusion SDXL 免費 AI 以圖生圖模型

Enhance This HiDiffusion SDXL是一個AI模型，結合HiDiffusion和SDXL兩種圖像生成模型，可以根據既有影像和文字描述生成新的圖像，可用來提高圖像解析度、修復瑕疵、轉換風格和自由創造新的圖像。

#AI繪圖#AI模型#SDXL

2024/06/01

逍遙資訊

Enhance This HiDiffusion SDXL 免費 AI 以圖生圖模型

#AI繪圖#AI模型#SDXL

2024/06/01

Frank Plaza

ComfyUI 研究 - 生成影片

這篇要介紹AI生成影片的兩個方式：SVD 跟 AnimateDiff。

#comfyui#stablediffusion#AI繪圖

2024/02/29

Frank Plaza

ComfyUI 研究 - 生成影片

這篇要介紹AI生成影片的兩個方式：SVD 跟 AnimateDiff。

#comfyui#stablediffusion#AI繪圖

2024/02/29

子不語怪・力・亂・神

Stable Diffusion練習，星空之下

這篇要來分享一下學習了一些攝影的知識後，用於改良AI生圖的經驗。 AI生圖可以藉由少少的幾個句子產生出非常美麗的圖片，事實上，很多時候AI生圖的極限是卡在人類使用者的想像力之下。

#StableDiffusion#AI繪圖#練習

2024/01/28

子不語怪・力・亂・神

Stable Diffusion練習，星空之下

#StableDiffusion#AI繪圖#練習

2024/01/28

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News