[深度學習]訓練VAE模型用於生成圖片_訓練篇

螃蟹_crab

發佈於AI深度學習筆記

更新於 2024/07/25發佈於 2024/07/25閱讀時間約 11 分鐘

本文主要介紹，如何利用VAE變分自編碼器來訓練生成圖片。

訓練集資料將採用TF影像資料庫中的fashion_mnist

VAE變分自編碼器簡單介紹

•VAE(Variational Auto-Encoder)中文名稱變分自編碼器，主要是一種將原始資料編碼到潛在向量空間，再編碼回來的神經網路。

在Colab上執行訓練

Python及套件版本

Python version: 3.10.12
NumPy version: 1.25.2
Pandas version: 2.0.3
Matplotlib version: 3.7.1
TensorFlow version: 2.15.0

程式碼

1.載入套件

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow import keras

2.載入資料集

from tensorflow.keras.datasets import fashion_mnist
(x_train_set, y_train_set), (x_test, y_test) = fashion_mnist. load_data()
x_train_set = x_train_set / 255.0x_test = x_test / 255.0

3.確認資料集

顯示隨便一張圖

i = 5
print (y_train_set [i])
plt. imshow(x_train_set[i], cmap='binary')
plt.show()

4.分割資料集

主要分出訓練跟驗證集

from sklearn.model_selection import train_test_split

x_train, x_valid, y_train, y_valid = train_test_split(x_train_set, y_train_set,

5.建立VAE模型

5.1 建立編碼器模型

class Sampling (keras.layers.Layer): #用於從潛在空間中進行采樣
    def call(self, inputs):
        mean, log_var = inputs
        #ε 是從標準常態分配中抽出的，其個數必須和(log σ**2)一致
        e = tf. random. normal(tf.shape (log_var))
        # Z = μ + ε * exp(log  σ**2/2) 
        # 最終的潛在變量，這樣生成的潛在變量具有正確的均值和方差。
        return mean + e * tf.math.exp (log_var / 2)
#清除背景舊模型    
keras.backend.clear_session() #清除背景舊模型
# 設置隨機種子
# 設置 TensorFlow 和 NumPy 的隨機種子，以確保實驗的可重現性
tf.random.set_seed(1)
np.random.seed (1)

#定義編碼器模型
d = 10#代表最后輸出時的數量
in_en = keras. layers. Input (shape= [28, 28])
#因結構特殊，不能使用Sequential，改用Functional方式
c = keras.layers.Flatten() (in_en)#(in_en)代表輸入層，要傳到Flatten層
c = keras.layers.Dense (150, activation="selu")(c)
c = keras.layers.Dense(100, activation="selu")(c)

c_mean = keras.layers.Dense(d)(c)
c_log_var = keras.layers.Dense(d)(c)

out_en = Sampling()([c_mean, c_log_var])

var_encoder = keras.models.Model(inputs= [in_en], outputs= [out_en])

var_encoder.summary()

編碼器模型架構

5.2 建立解碼器模型

#in_de：定義了解碼器的輸入層，形狀為 [d]，其中 d 是潛在空間的維度（與編碼器中的輸出一致）
in_de = keras.layers.Input (shape= [d])

x = keras. layers.Dense(100, activation="selu")(in_de)
x = keras. layers.Dense(150, activation="selu")(x)
x = keras. layers.Dense(28 * 28, activation="sigmoid")(x)
# Reshape 層：將展平的輸出轉換回 [28, 28] 的形狀，即恢復為原始圖像的形狀。
out_de = keras.layers.Reshape( [28, 28])(x)

var_decoder = keras.models.Model(inputs=[in_de], outputs=[out_de])

codings = var_encoder(in_en) #通過編碼器 var_encoder 將輸入 in_en 轉換為潛在變量。
rec = var_decoder (codings) #通過解碼器 var_decoder 將潛在變量 codings 重建回圖像空間。

5.3 組合成完整的VAE模型

# 建立一個變分自編碼器（Variational Autoencoder, VAE）的完整模型
# 其輸入為 in_en（原始圖像），輸出為 rec（重建的圖像）
var_ae = keras.models.Model(inputs=[in_en], outputs= [rec])

var_ae.summary()

解碼器模型

6.模型Compile

損失函數、優化器和評估指標的設置後，模型需要被編譯，才能進行訓練。

6.1 設置損失函數

D_KL = -0.5 * tf. math. reduce_sum (
    #公式：∑(1+log σ**2 - σ**2 - μ**2) ; σ**2 = exp(log σ**2)
    1 + c_log_var - tf. math.exp (c_log_var) - tf.math. square (c_mean),
    axis=1)
#所有累加值求平均
latent_loss = tf.math.reduce_mean(D_KL) / 784.0   #784個神經元
var_ae.add_loss(latent_loss)

6.2 設置評估指標

def rounded_accuracy (y_true, y_pred):
		# binary_accuracy用來計算二類分類問題的準確率。準確率是指預測值與真實標籤相匹配的比例。
    return keras.metrics.binary_accuracy(tf.round (y_true), tf. round (y_pred)

6.3 Compile

loss='binary_crossentropy'：設置模型的損失函數為二元交叉熵，適合二類分類問題。
optimizer='rmsprop'：使用 RMSprop 優化器來更新模型的權重。
metrics=[rounded_accuracy]：設置自定義的準確率指標 rounded_accuracy 來監控模型在訓練過程中的性能。

var_ae.compile(loss='binary_crossentropy',
              optimizer="rmsprop",
              metrics= [rounded_accuracy])

損失函數：決定了模型在訓練過程中如何計算誤差並調整參數。
優化器：決定了模型權重的更新方式，影響訓練過程的效率和效果。
評估指標：提供了在訓練和評估過程中監控模型性能的方法，使你可以追蹤模型的學習情況。

7.訓練

x_train：這是模型的訓練數據，通常是原始圖像或數據集。

x_train ：作為第二個參數：在自編碼器（包括變分自編碼器）中，訓練數據的輸入和目標是相同的，因為目標是將輸入數據重建回來。因此，這裡的 x_train 既是輸入數據也是目標數據。

epochs：訓練過程中完整遍歷訓練數據集的次數。這裡設定為 20，表示將訓練 20 個循環（每個循環都遍歷一次完整的訓練數據集）。

validation_data：這是用於模型驗證的數據集。與訓練數據類似，驗證數據的輸入和目標也是相同的。

train = var_ae.fit(x_train, x_train,
                  epochs=20, batch_size=256,
                  validation_data=(x_valid, x_valid))

8.查看訓練歷史紀錄

#將這些歷史數據轉換為 Pandas DataFrame，以便於進行進一步的分析和可視化。
pd.DataFrame(train.history).plot()
plt.grid(True)
plt.show()

9.評估模型性能

返回損失值及準確率

var_ae.evaluate(x_test, x_test)

10.比較模型的重建效果

將前 5 個測試樣本的原始圖像和相應的重建圖像並排顯示，以比較模型的重建效果。

這是評估變分自編碼器性能的一個直觀方法，幫助你檢查模型是否能夠有效地重建圖像，並理解其在數據生成方面的能力。

plt.figure(figsize=(10, 4))
j = 0
for i in range (5,10): #印出 第六筆到第十筆
    plt.subplot(2, 5, 1 + j)#編號 1開始
    plt.imshow(x_test[i], cmap='binary')
    plt.title('original')
    plt.axis('off')

    plt.subplot(2, 5, 1 + 5 + j)#編號 6開始
    plt.imshow (x_test_decoded [i], cmap='binary')
    plt.title('reconstructed')
    plt.axis('off')
    j += 1
    print(j)
plt.show()

第六到第十

第一筆到第五筆

11.儲存模型

var_decoder.save('var_decoder.h5')

如何使用儲存好的模型，在下一篇文章展示

[深度學習]訓練VAE模型用於生成圖片_生成篇

螃蟹_crab的沙龍AI深度學習筆記生成模型

留言

留言分享你的想法！

螃蟹_crab

發文者

2024/07/25

在[深度學習]訓練VAE模型用於生成圖片_生成篇提及了這篇文章，趕快過去看看吧！

螃蟹_crab的沙龍

141會員

253內容數

本業是影像辨識軟體開發，閒暇時間進修AI相關內容，將學習到的內容寫成文章分享。

螃蟹_crab的沙龍的其他內容

2024/07/27

[深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇

呈上篇介紹如何訓練模型，此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇生成的結果生成的圖片大小會根據，當初設置的生成器輸出大小來決定，當你使用生成對抗網絡（GAN）生成圖像時，生成器模型的最後一層通常會決定生成圖

2024/07/27

[深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇

2024/07/27

[深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_訓練篇

本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。

2024/07/27

[深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_訓練篇

本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。

2024/07/26

[深度學習][Python]利用訓練完成的GAN模型來生成圖片_生成篇

本文將延續上一篇文章，經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇相較之下CNN的GAN生成的效果比較好，但模型也相對比較複雜，訓練時間花的也比較

2024/07/26

[深度學習][Python]利用訓練完成的GAN模型來生成圖片_生成篇

看更多

你可能也想看

Dr HI的眼科沙龍

光的選擇，就是視力的選擇— Philips 飛利浦 A5 軒博全光譜智能LED護眼檯燈

大家好，我是一名眼科醫師，也是一位孩子的媽身為眼科醫師的我，我知道視力發展對孩子來說有多關鍵。每到開學季時，診間便充斥著許多憂心忡忡的家屬。近年來看診中，兒童提早近視、眼睛疲勞的案例明顯增加，除了3C使用過度，最常被忽略的，就是照明品質。然而作為一位媽媽，孩子能在安全、舒適的環境

#momo購物網#Philips飛利浦#軒博

2025/04/30

Dr HI的眼科沙龍

光的選擇，就是視力的選擇— Philips 飛利浦 A5 軒博全光譜智能LED護眼檯燈

#momo購物網#Philips飛利浦#軒博

2025/04/30

方格子 vocus 官方沙龍

♥️ 5 月主題活動：我的媽呀！母親節快樂！

我的「媽」呀！母親節即將到來，vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常，或是一直想對她表達的感謝，又或者，是你這輩子最想聽她說出的一句話。也歡迎你曬出合照，分享照片背後的點點滴滴 ♥️ 透過創作，將這份情感表達出來吧！🥹

#母親節#媽媽美照#媽媽日常

2025/05/01

方格子 vocus 官方沙龍

♥️ 5 月主題活動：我的媽呀！母親節快樂！

#母親節#媽媽美照#媽媽日常

2025/05/01

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

特徵工程是機器學習中的核心技術，通過將原始數據轉換為有意義的特徵，以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程，以幫助讀者有效利用特徵工程來優化機器學習模型表現。

#數據#模型#異常

2024/08/14

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

#數據#模型#異常

2024/08/14

仁和的論文整理

探索41個讓你驚豔的AI影像生成模型論文

本文探討了影像生成模型的多種應用，包括文字、圖像和聲音到影片的生成，涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究，分析影像生成技術的未來趨勢與挑戰，為讀者提供全面的理解與啟示。

2024/08/13

2024/08/13

[深度學習]訓練VAE模型用於生成圖片_生成篇

本文將延續上一篇文章，經由訓練好的VAE模型其中的解碼器，來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇輸入產生的隨機雜訊，輸入VAE的解碼器後，生成的圖片

#深度學習#VAE模型#生成圖片

2024/07/25

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_生成篇

#深度學習#VAE模型#生成圖片

2024/07/25

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_訓練篇

本文主要介紹，如何利用VAE變分自編碼器來訓練生成圖片。訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器，主要是一種將原始資料編碼到潛在向量空間，再編碼回來的神經網路。

#深度學習#VAE模型#生成圖片

2024/07/25

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_訓練篇

#深度學習#VAE模型#生成圖片

2024/07/25

柴郡貓姍蒂的沙龍

筆記-深度學習模型訓練：利用殘差網路做影像辨識

前言讀了許多理論，是時候實際動手做做看了，以下是我的模型訓練初體驗，有點糟就是了XD。正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,

#深度學習#AI#人工智慧

2024/07/23

柴郡貓姍蒂的沙龍

筆記-深度學習模型訓練：利用殘差網路做影像辨識

#深度學習#AI#人工智慧

2024/07/23

Karen的沙龍

【邁向圖神經網絡GNN】Part1:圖數據的基本元素與應用

GNN發展背景傳統的深度學習模型如在計算機視覺（CV）和自然語言處理（NLP）領域中極為成功，主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構，例如影像是由有序的像素點組成。然而，在真實世界中，許多數據是非結構化的，如化合物結構（原子和分子）。這些數據雖然具有一定的規則性，

#數據#結構#社交

2024/07/22

Karen的沙龍

【邁向圖神經網絡GNN】Part1:圖數據的基本元素與應用

#數據#結構#社交

2024/07/22

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片，以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構，並詳細探討了訓練模型的方法以及不同的影像資料集來源。

#模型#視頻#數據

2024/07/05

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

#模型#視頻#數據

2024/07/05

仁和的論文整理

AI影像論文(05)：StableDiffusion非對稱性VQGAN

VQGAN是一種基於GAN(生成對抗式網路)的生成式模型，可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構，並提出了一種新的非對稱式VQGAN，具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。

#論文#AI#資料科學

2024/07/04

仁和的論文整理

AI影像論文(05)：StableDiffusion非對稱性VQGAN

#論文#AI#資料科學

2024/07/04

《創作者事業研究室》沙龍

【新手ＡＩ行銷線上課，簡單快速製文製圖製影片】

#啟發隨想#新手AI行銷線上課#銷售頁

2024/06/09

《創作者事業研究室》沙龍

【新手ＡＩ行銷線上課，簡單快速製文製圖製影片】

#啟發隨想#新手AI行銷線上課#銷售頁

2024/06/09

YEN Lo的沙龍

AI繪圖-Bing-使用Bing圖片生成原圖並利用Tensor Art創造不同風格的圖像

這邊紀錄使用Bing images create 生成原圖並利用Tensor art

#Tensor#Bing#QR Code

2024/02/14

YEN Lo的沙龍

AI繪圖-Bing-使用Bing圖片生成原圖並利用Tensor Art創造不同風格的圖像

這邊紀錄使用Bing images create 生成原圖並利用Tensor art

#Tensor#Bing#QR Code

2024/02/14

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News