AI影像論文(04)：DDPMs (Denoising Diffusion Probabilistic Models)

2024/07/03閱讀時間約 6 分鐘

上一篇影像論文講到了U-Net在資料收集的過程中就時常聽聞在鼎鼎大名的diffussion模型中很重要的一部分為U-Net因此這次繼續往下深入探討diffusion模型中的DDPMs。

📌論文簡介

DDPM是近期蠻流行的影像生成模型，來自加州大學柏克萊分校的團隊所發表，最終表現在無條件CIFAR10數據集上，獲得了9.46的Inception分數和3.17的最佳FID分數。在256x256的LSUN數據集上，也得到了與ProgressiveGAN相似的樣本品質。

📌模型架構介紹

🐌Forward process (擴散)

Forward process是diffussion模型中非常重要的一個部分，他的概念就是由一張圖片逐漸添加噪音，而這些雜訊為高斯分布(常態)，最後變為高斯分布的噪音圖片。

為什麼diffussion模型要使用高斯分布去做擴散呢?

高斯分布：又稱為常態分布（Normal Distribution），會使用的一大原因是因為常態分佈在數學上的簡潔性，像是常態分佈的平均值或是變異數的線性組合也會是常態分佈，另一個原因是因為常態噪音會是連續且平滑的，圖片可以平滑的過渡到常態分佈，不會突然跳躍。

那我們是怎麼去做添加噪音的呢?可以看下方這張圖。

🐌Reverse process (降噪)

降噪的過程就是將我們擴散完的高斯分布的噪音圖片，不斷的去去掉我們添加的雜訊，進而慢慢地讓圖片更加清晰，直到產生一章無雜訊之圖片。

在降噪的時候我們會透過Denoise的方式去做降噪，這邊具體怎麼做呢?

（1）輸入我們想要降噪的圖像＋時間序（t）。（2）資料進入雜訊預測的模型(我們要訓練的模型)(U-Net)（3）輸出預測出來的雜訊（4）將想降噪的圖像減掉預測出來的圖像，則為上一時間序之圖像（t-1）

📌訓練＆採樣演算法

上方是論文中所提供的訓練以及採樣的演算法。我自己看這張圖也是霧颯颯，接下來我們來詳細的解釋吧～

🐌訓練演算法

每次的訓練中我們會重複以下的動作：

（1）隨機選擇一個time step並做encode（2）根據公式增加噪音（3）立用隨機的time step以及噪音圖片訓練U-Net

import numpy as np

#我們需要定義擴散過程中使用的常數和參數，例如時間步數 𝑇、擴散係數、𝛼及其平方根。

T = 1000  # 定義時間步數

alpha = np.linspace(0.0001, 0.02, T)  # 定義擴散係數，線性地從0.0001到0.02

sqrt_alpha = np.sqrt(alpha)  # 計算擴散係數的平方根

sqrt_one_minus_alpha = np.sqrt(1 - alpha)  # 計算 (1 - α) 的平方根

# 訓練算法的目的是優化 𝜖𝜃，使其能夠有效地表示從高斯噪聲轉換回數據的過程。

def train(q_sample, T, alpha, sqrt_alpha, sqrt_one_minus_alpha):

    epsilon_theta = np.random.randn()  # 初始猜測

    for _ in range(10000):  # 迭代直到收斂

        x0 = q_sample()  # 從數據分佈 q(x0) 取樣

        t = np.random.randint(1, T + 1)  # 從 {1, ..., T} 中均勻取樣 t

        epsilon = np.random.randn()  # 從 N(0, I) 取樣 epsilon

        # 計算梯度下降步驟

        epsilon_theta -= 0.001 * (epsilon_theta * sqrt_alpha[t] + sqrt_one_minus_alpha[t] * epsilon - x0) ** 2

        # 收斂檢查

        if np.linalg.norm(epsilon_theta) < 1e-5:

            break

    return epsilon_theta

🐌採樣演算法

（1）從高斯分布中隨機選擇一個隨機值(初始樣本)：X

（2）逐步從T到1移除噪音(e.g. T = 1000 # 定義時間步數)（3）在每個時間步T，如果 T 大於1，我們從標準高斯分佈中采樣一個隨機噪聲Z。(如果T等於1，則設Z為0。這是因為在最後一步不再需要添加額外的噪聲。)（4）使用去噪步驟更新x

def sample(epsilon_theta, T, alpha, sqrt_alpha, sqrt_one_minus_alpha):

    # 從N(0, I)中採樣 xT

    x = np.random.randn()    # 逐步從T到1進行迴圈

    for t in range(T, 0, -1):

        # 如果 t > 1，則從N(0, I)中採樣z，否則z = 0

        z = np.random.randn() if t > 1 else 0

        # 使用去噪步驟更新x

        x = (x - (1 - alpha[t]) / sqrt_alpha[t] * epsilon_theta) / sqrt_alpha[t] + sqrt_one_minus_alpha[t] * z

    # 返回最終生成的x0

    return x

📌參考資料

論文：https://arxiv.org/pdf/2006.11239

文章：https://adam-study-note.medium.com/diffusion-model-denoising-diffusion-probabilistic-models-ddpm-%E8%A9%B3%E7%B4%B0%E4%BB%8B%E7%B4%B9-5ce77b6b64d4

3會員

10內容數

Hello 我是黃仁和就讀於國立台北科技大學資財系目前剛升上大四我的專長為資料科學領域目前專攻於影像並且於台灣大哥大擔任影像AI實習生

留言0

查看全部

發表第一個留言支持創作者！

仁和的論文整理的其他內容

財經數據論文(01)：中國盤中逐筆成交資料之可預測性

本研究使用了盤中逐筆成交資料（Tick-by-tick Data）來進行股票價格的預測，並討論了馬可夫鏈模型和擴散核模型在這方面的應用。研究結果表明，大多數股票的未來三秒價格可以在少於22個狀態中找到，顯示了交易價格的低不確定性。此外，研究還發現波動性更大和價格更高的股票更難以準確預測。

#數據 #模型 #股票

AI影像論文(03)：U-Net 論文筆記整理

U-Net演算法架構解析，首次介紹了U-Net的設計，架構，以及在Stable-diffusion中的應用。詳盡分析了U-Net的收縮路徑、擴展路徑、最終層，以及形變不變性的應用。同時提供了相關論文以及PyTorch實作的參考資料。

#路徑 #模型 #論文

AI影像論文(02)：ControlCom影像合成模型-論文筆記整理

本文章介紹了ControlCom影像合成模型的技術與架構，以及其與其他方法的比較。模型具有可控的圖像合成能力，並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構，以及數據準備和結果與結論。

#模型 #影像 #背景

AI影像論文(01)：影像合成是如何實現的?Making Images Real Again: A Comprehens

本文介紹了影像合成任務及其歷史解決方案，包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法，並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。

#影像 #AI #論文

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

這個秋，Chill 嗨嗨！穿搭美美去賞楓，裝備款款去露營⋯⋯你的秋天怎麼過？秋日 To Do List 等你分享！秋季全站徵文，我們準備了五個創作主題，參賽還有機會獲得「火烤兩用鍋」，一起來看看如何參加吧～

#天天秋嗨嗨 #秋季旅遊 #秋季穿搭

沈重宗的沙龍

2024/02/17

OpenAI最新推出的「Sora」是一款文本生成影像的AI模型，只要輸入幾句簡單的文字描述，就能自動生成出影像

OpenAI最新推出的「Sora」是一款文本生成影像的AI模型，只要輸入幾句簡單的文字描述，就能自動生成出影像，影片內容可以包含多名角色，搭配特定的動態場景，且影片長度最高可達60秒，同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫，功能十分強大。目前Sora還沒有開放給大眾使

ChoozSEO

2024/01/24

生成式AI影像：開啟人工智慧新紀元

人工智慧（AI）的發展日新月異，其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能，更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用，包括其概念、原理、發展趨勢，以及一些嶄新的生成式AI公司和軟體。

#ChoozSEO #SEO #seo

訊息流鬼才的沙龍

2023/11/27

教學 AI 即時生成影像本地部屬Krea AI平替版

好玩的來了，AI即時繪畫目前可以做到透過提示詞配合網路攝影機進行即時的AI轉換。今天教你怎麼用這個工具以下有整合包 https://drive.google.com/drive/folders/1Uz8QNDgYjfDjoYcAdxZYD0KIoxsaX_s6?usp=drive_link

#AI繪圖 #生成式AI #整合

男子漢聊AI的沙龍

2023/10/17

【AI工具分享】Midjourney 的AI 影像提示擴展「Image Prompter」

Image Prompter 是一款用於Midjourney 和AI 繪畫的AI 影像提示擴充。它透過點擊以下方式產生提示，使得生成過程更加直覺和簡單：透過範例圖像點擊生成；將提示按主題、風格和參數分類；提供了大量的預設提示。

#AI工具推薦

男子漢聊AI的沙龍

2023/10/17

【AI工具分享】使用AI 技術進行反向影像搜尋「AI Reverse Image Search」

近日，我們推出了全新的AI 反向影像搜尋功能，為用戶提供更準確的搜尋結果。與其他僅能辨識表面級模式和顏色的圖庫技術不同，我們的反向影像搜尋利用AI 技術來理解影像背後的上下文，從而提供更準確的搜尋結果。快來試試看，告訴我們您的體驗！

#AI工具推薦

德意志黑眼圈

2023/10/06

微軟Bing影像建立工具，免費快速AI繪圖

Microsoft Bing影像建立工具已經推出一段時間，之前看到不少實測文章，雖然可調整選項不多，應該說是幾乎沒有，但是產生的圖片品質不錯，也有1024*1024的解析度。這次來試用看看，用中文描述的產出結果，還不錯!

#Bing #微軟 #AI繪圖

輕煙跟你聊電影

2023/01/05

AI變變變系列(二)花、葉與公園長椅影像重疊創作的秋光奏鳴曲。

融合了花、葉與公園長椅，以「秋天的記憶」為題的八張影像重疊創作作品，透過美圖秀秀APP 「AI 繪畫藝術」，會蛻變出怎樣風格的秋光奏鳴曲?

輕煙跟你聊電影

2022/12/21

玩轉你的影像 --- 美圖秀秀APP 「AI 繪畫藝術」多種畫風一鍵生成 3-3

透過「AI 繪畫藝術 --- 多種畫風一鍵生成」免費測試版，美濃湖的橋樑、遠山、湖，美濃湖的橋樑、遠山、湖面，樹林都有了不同的風貌，連人物造型跟拿的包包都有了整套的搭配變化，最有趣的是附近的檳榔樹與遠山，也變成了聖誕樹林，連遠處的平房也有了不同的建築形式。

輕煙跟你聊電影

2022/12/19

玩轉你的影像 --- 美圖秀秀APP 「AI 繪畫藝術」多種畫風一鍵生成 3-2

透過美圖秀秀APP「AI 繪畫藝術」測試版，你會發現龍虎塔的塔，你會發現龍虎塔的塔型，變得更古色古香，有些還幻化成了日本建築風格，塔前的石橋被東方風格的街頭古燈所取代，潭前的荷花池全轉換成荷花池全轉換成了日式的庭園與石階，與西式的建築與路燈，上面還被白雪覆蓋著，連塔邊的樹種，天際的背景也有了轉換，東

輕煙跟你聊電影

2022/12/19