貓貓學習筆記

圖像風格轉換(二)-每次重訓練好麻煩

發佈於AI之路有你有我

2024/05/07 更新2024/05/07 發佈閱讀 2 分鐘

一.引言

　　　在第一篇我講到一開始的圖像風格轉換，每產生一張圖片都得重新訓練，這對於使用上難免綁手綁腳，所以理所當然的下一步就是要解決這個問題，看看能不能只要訓練一次，就可以重複使用。

二.方法說明

　　在原來的方法中，之所以需要每次都要重複訓練的主要原因就是因為將優化對象從模型本身轉換成輸入圖像，這樣一來模型的功用只有特徵擷取功能，對圖像的優化變成一個一次性計算，於是調整方法便是回歸初衷，來訓練一個模型負責圖像的風格轉換不就能解決了嗎?

　　在 Johnson et al. 2016 的 Perceptual Losses for Real-Time Style Transfer and Super-Resolution 中便使用了這樣的架構，其搭建了一個<圖-圖>的網路來生成轉換風格的圖像，後續使用VGG對其進行評估，一樣使用Content Loss及Style Loss去優化整個網路，這樣一來便可以使用一整個資料集的圖像去訓練一個風格。

　　Loss方面，除了Content Loss、Style Loss 外，還新增了一個 Total Variation Loss，這個 Loss 主要計算圖像像素在x/y方向梯度的和，可以用來優化圖像的平滑度，減少噪聲的發生。

三.實際演練

　　首先可以先去COCO下載一些圖下來(這次實驗載了2014 Train images [83K/13GB])，載完後因為使用 torchvision.datasets.ImageFolder 來載入資料集，所以需要再新建一層資料夾包住所有訓練圖，而後續迭代時拿到的 label 就無視就好，主要網路部分，為下採樣+多層殘差層+上採樣的簡易架構，VGG一樣使用VGG16，實驗程式碼位於我的Github，這次使用以下風格 :

raw-image

raw-image

四.結語

　　這次擴展的前一章的程式，額外新建了一個網路來轉換圖像，使用這種方式，可以將風格學習成可重用的網路，但也意味著一個風格就得占用一整個網路的權重，也是挺浪費的，可以嘗試降低網路參數，如減少層數或降低濾波器數量，或是讓我們朝著下一步──將不同風格融入同一個網路內前進，接下來下一篇便會介紹該如何做到一個網路同時學習不同風格。

貓貓學習筆記AI之路有你有我

留言

貓貓學習筆記

10會員

21內容數

AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記，也包含一些心得，主要是幫助自己學習，若能同時幫助到不小心來到這裡的人，那也是好事一件 : )

貓貓學習筆記的其他內容

2024/07/08

TextToSpeech-聲學特徵轉換

我們前面幾篇已經講完TTS技術的一大半架構了，知道了如何將聲學特徵重建回音訊波形，也從中可以知道要是聲學特徵不完善，最終取得的結果也會不自然，剩下要探討該如何將文字轉換成聲學特徵，且能夠自然地表現停頓及細節變化，讓我們開始吧。

2024/07/08

TextToSpeech-聲學特徵轉換

我們前面幾篇已經講完TTS技術的一大半架構了，知道了如何將聲學特徵重建回音訊波形，也從中可以知道要是聲學特徵不完善，最終取得的結果也會不自然，剩下要探討該如何將文字轉換成聲學特徵，且能夠自然地表現停頓及細節變化，讓我們開始吧。

2024/06/26

TextToSpeech-WaveNet 後日談

距離上篇已經快過一個月了，這個月我也沒閒著，我FF14生產職拉了不少等級進行了上篇 WaveNet 的後續調試，也比較與其他人實現的效果，又發現了幾個實作上可能造成困難的點，現在就跟各位分享一下~

2024/06/26

TextToSpeech-WaveNet 後日談

距離上篇已經快過一個月了，這個月我也沒閒著，我FF14生產職拉了不少等級進行了上篇 WaveNet 的後續調試，也比較與其他人實現的效果，又發現了幾個實作上可能造成困難的點，現在就跟各位分享一下~

2024/06/01

TextToSpeech-WaveNet

WaveNet 提供了一個先進的架構用於音訊重建，但是，有必要嗎? Mel 頻譜本身就是經過數學轉換而獲得的結果，不能反運算嗎 ? 到底 WaveNet 在其中扮演了甚麼腳色 ?它是如何運作的 ? 讓我們在這篇好好探討下去。

2024/06/01

TextToSpeech-WaveNet

WaveNet 提供了一個先進的架構用於音訊重建，但是，有必要嗎? Mel 頻譜本身就是經過數學轉換而獲得的結果，不能反運算嗎 ? 到底 WaveNet 在其中扮演了甚麼腳色 ?它是如何運作的 ? 讓我們在這篇好好探討下去。

你可能也想看

方格子 vocus 官方沙龍

【 vocus 全站慶，更好的 2026 上線了！】折扣碼 x 抽紅包 x 新手禮 x App 登場！

vocus 慶祝推出 App，舉辦 2026 全站慶。推出精選內容與數位商品折扣，訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包，以及全站徵文，並邀請你一起來回顧過去的一年， vocus 與創作者共同留下了哪些精彩創作。

#vocus#2026#vocus2026

2026/01/26

方格子 vocus 官方沙龍

【 vocus 全站慶，更好的 2026 上線了！】折扣碼 x 抽紅包 x 新手禮 x App 登場！

vocus 慶祝推出 App，舉辦 2026 全站慶。推出精選內容與數位商品折扣，訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包，以及全站徵文，並邀請你一起來回顧過去的一年， vocus 與創作者共同留下了哪些精彩創作。

#vocus#2026#vocus2026

2026/01/26

柴郡貓姍蒂的沙龍

筆記-深度學習模型訓練：利用殘差網路做影像辨識

前言讀了許多理論，是時候實際動手做做看了，以下是我的模型訓練初體驗，有點糟就是了XD。正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,

#深度學習#AI#人工智慧

2024/07/23

柴郡貓姍蒂的沙龍

筆記-深度學習模型訓練：利用殘差網路做影像辨識

前言讀了許多理論，是時候實際動手做做看了，以下是我的模型訓練初體驗，有點糟就是了XD。正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,

#深度學習#AI#人工智慧

2024/07/23

子不語怪・力・亂・神

Stable Diffusion練習，營火

最近在嘗試使用不同的AI生圖方式混合出圖的方式，採用A平台的優點，並用B平台後製的手法截長補短，創造出自己更想要的小說場景，效果不錯，現在以這張圖為例，來講一下我的製作步驟。

#StableDiffusion#AI繪圖#插畫

2024/07/15

子不語怪・力・亂・神

Stable Diffusion練習，營火

最近在嘗試使用不同的AI生圖方式混合出圖的方式，採用A平台的優點，並用B平台後製的手法截長補短，創造出自己更想要的小說場景，效果不錯，現在以這張圖為例，來講一下我的製作步驟。

#StableDiffusion#AI繪圖#插畫

2024/07/15

貓貓學習筆記

圖像風格轉換(四)-最終進化?

　　經過三篇的進展，我們目前實作的網路已經能做到同時訓練多種風格，且後續可以直接進行轉換，不用重新訓練，但是這種方法畢竟還是受到了預訓練的風格制約，無法跳脫出來，那麼有什麼辦法能夠讓他對於沒學過的風格也有一定的反應能力呢?

#AI#StyleTransform#Pytorch

2024/05/10

貓貓學習筆記

圖像風格轉換(四)-最終進化?

　　經過三篇的進展，我們目前實作的網路已經能做到同時訓練多種風格，且後續可以直接進行轉換，不用重新訓練，但是這種方法畢竟還是受到了預訓練的風格制約，無法跳脫出來，那麼有什麼辦法能夠讓他對於沒學過的風格也有一定的反應能力呢?

#AI#StyleTransform#Pytorch

2024/05/10

貓貓學習筆記

圖像風格轉換(二)-每次重訓練好麻煩

在第一篇我講到一開始的圖像風格轉換，每產生一張圖片都得重新訓練，這對於使用上難免綁手綁腳，所以理所當然的下一步就是要解決這個問題，看看能不能只要訓練一次，就可以重複使用。

#AI#StyleTransfer#Pytorch

2024/05/07

貓貓學習筆記

圖像風格轉換(二)-每次重訓練好麻煩

在第一篇我講到一開始的圖像風格轉換，每產生一張圖片都得重新訓練，這對於使用上難免綁手綁腳，所以理所當然的下一步就是要解決這個問題，看看能不能只要訓練一次，就可以重複使用。

#AI#StyleTransfer#Pytorch

2024/05/07

貓貓學習筆記

圖像風格轉換(一)-風格轉換初探

　　最近遇到一些人想做音訊的合成，我回答他或許可以從圖像風格轉換中找到些靈感，我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何，對於內部訓練邏輯及結構並沒有認真的去了解，現在剛好趁此機會好好的學習一下。

#AI#StyleTransfer#Pytorch

2024/05/06

貓貓學習筆記

圖像風格轉換(一)-風格轉換初探

　　最近遇到一些人想做音訊的合成，我回答他或許可以從圖像風格轉換中找到些靈感，我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何，對於內部訓練邏輯及結構並沒有認真的去了解，現在剛好趁此機會好好的學習一下。

#AI#StyleTransfer#Pytorch

2024/05/06

原來可以這樣做沙龍

從概念到實踐，教你如何運用AI生成來激發視覺和創意

運用生成的AI圖像來激發視覺和創意，無論是生成素材、用在社交媒體上，這些圖像都能為你的的視覺帶來獨特的風格。

#分享#創作#AI

2024/04/24

原來可以這樣做沙龍

從概念到實踐，教你如何運用AI生成來激發視覺和創意

運用生成的AI圖像來激發視覺和創意，無論是生成素材、用在社交媒體上，這些圖像都能為你的的視覺帶來獨特的風格。

#分享#創作#AI

2024/04/24

ComfyUI研究 - 虛實轉換

這篇要搭建一個同時生成寫實照片跟動漫風格圖片的工作流，還可以幫線稿上色。

#comfyui#stablediffusion#AI繪圖

2024/04/06

ComfyUI研究 - 虛實轉換

這篇要搭建一個同時生成寫實照片跟動漫風格圖片的工作流，還可以幫線稿上色。

#comfyui#stablediffusion#AI繪圖

2024/04/06

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News