圖像風格轉換(一)-風格轉換初探

發佈於AI之路有你有我

更新於 2024/05/06發佈於 2024/05/06閱讀時間約 2 分鐘

一.引言

　　最近遇到一些人想做音訊的合成，我回答他或許可以從圖像風格轉換中找到些靈感，我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何，對於內部訓練邏輯及結構並沒有認真的去了解，現在剛好趁此機會好好的學習一下。

二.圖像風格說明

　　對於圖像風格轉換，可以往前推至 Gatys et al. 2015 的 A Neural Algorithm of Artistic Style 這篇論文，當中提出了使用 VGG16/19 作為特徵擷取層，最終達成了單次單張圖像的風格轉換。

　　首先，我們來說明一下為什麼能做到風格轉換，在這篇論文中，將風格轉換問題視為一個對圖同時進行<內容>及<風格>的優化，希望一張圖在特徵擷取後的特徵，與分別對內容圖及風格圖進行相同的特徵擷取後的結果進行相關性計算，若兩者都收斂，及代表該圖同時保有內容圖的風格圖的內容。

　　這是一個有趣的方向，因為與目前通常的使用來說，優化的通常是模型本身，而這邊採取的是優化圖像，模型是不用進行參數更新的，接下來會簡單介紹整體訓練流程 :

三.實際演練

首先先定義出內容圖像及風格圖像，這邊就用我的拉拉肥及五條來試試

raw-image

　　在訓練時，會持續使用這兩張圖像計算 Content Loss 及 Style Loss ，以下為簡易流程圖。

raw-image

　　至於最重要的 Loss 方面，Content Loss 採用 MSE 進行兩張圖內容上的相似度判斷，而 Style Loss 方面，因為需要凸顯出風格，所以是採用 Gram 矩陣的方式，所謂的Gram 矩陣是將特徵向量與自己的轉置相乘，最終獲取的矩陣可以理解成不同特徵的相關響應，且忽略它們在圖像中的具體位置，這樣的方式能好好的抓住風格的本質──紋理與視覺模式的總體分布。

　　以下為實際的結果，實際實驗時可以嘗試調整優化器，原論文中的LBFGS雖然收斂很快，但有機率梯度爆炸，若調整成 Adam 雖然收斂變慢，但可以穩定的的收斂，若想看到逐漸變化的過程，使用 Adam 會是一個好辦法。

raw-image

四.結語

　　本次實驗的風格轉換確實是個有趣的方式及方向，但缺點也很明顯，因為訓練的是圖像本身，意味著生成一張圖像都得重新經過訓練，沒有記憶功能，且結果稍不可控，但這方法也奠基的一個風格轉換的基礎，我接下來會逐步介紹接下來的變體。

另外本次實作程式碼也同步更新於Github

貓貓學習筆記AI之路有你有我

留言

留言分享你的想法！

貓貓學習筆記

9會員

21內容數

AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記，也包含一些心得，主要是幫助自己學習，若能同時幫助到不小心來到這裡的人，那也是好事一件 : )

貓貓學習筆記的其他內容

2024/07/08

TextToSpeech-聲學特徵轉換

我們前面幾篇已經講完TTS技術的一大半架構了，知道了如何將聲學特徵重建回音訊波形，也從中可以知道要是聲學特徵不完善，最終取得的結果也會不自然，剩下要探討該如何將文字轉換成聲學特徵，且能夠自然地表現停頓及細節變化，讓我們開始吧。

2024/07/08

TextToSpeech-聲學特徵轉換

我們前面幾篇已經講完TTS技術的一大半架構了，知道了如何將聲學特徵重建回音訊波形，也從中可以知道要是聲學特徵不完善，最終取得的結果也會不自然，剩下要探討該如何將文字轉換成聲學特徵，且能夠自然地表現停頓及細節變化，讓我們開始吧。

2024/06/26

TextToSpeech-WaveNet 後日談

距離上篇已經快過一個月了，這個月我也沒閒著，我FF14生產職拉了不少等級進行了上篇 WaveNet 的後續調試，也比較與其他人實現的效果，又發現了幾個實作上可能造成困難的點，現在就跟各位分享一下~

2024/06/26

TextToSpeech-WaveNet 後日談

距離上篇已經快過一個月了，這個月我也沒閒著，我FF14生產職拉了不少等級進行了上篇 WaveNet 的後續調試，也比較與其他人實現的效果，又發現了幾個實作上可能造成困難的點，現在就跟各位分享一下~

2024/06/01

TextToSpeech-WaveNet

WaveNet 提供了一個先進的架構用於音訊重建，但是，有必要嗎? Mel 頻譜本身就是經過數學轉換而獲得的結果，不能反運算嗎 ? 到底 WaveNet 在其中扮演了甚麼腳色 ?它是如何運作的 ? 讓我們在這篇好好探討下去。

2024/06/01

TextToSpeech-WaveNet

WaveNet 提供了一個先進的架構用於音訊重建，但是，有必要嗎? Mel 頻譜本身就是經過數學轉換而獲得的結果，不能反運算嗎 ? 到底 WaveNet 在其中扮演了甚麼腳色 ?它是如何運作的 ? 讓我們在這篇好好探討下去。

你可能也想看

蝦皮開箱｜TOMICA 吉伊卡哇烏薩奇兔兔小車

TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空，一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮，突然發現幾家商場都又開始重新上架，價格也都回到正常水準，估計是官方又再補了一批貨，想都沒想就立刻下單！同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷！

#吉伊卡哇#開箱#蝦皮分潤計畫

2025/05/13

蝦皮開箱｜TOMICA 吉伊卡哇烏薩奇兔兔小車

TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空，一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮，突然發現幾家商場都又開始重新上架，價格也都回到正常水準，估計是官方又再補了一批貨，想都沒想就立刻下單！同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷！

#吉伊卡哇#開箱#蝦皮分潤計畫

2025/05/13

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

創作邦｜設計X工具X品牌的沙龍

設計微調 VOL.15-排版概念分析

排版微系列調專門分享如何透過一些調整讓設計與排版更好看，並且每張設計都會說明為何調整的原因，以及原本設計可能有的問題。如果你是設計初學者那這份內容會很適合你，因為會很細節的去講解排版原因，如果你看完喜歡，我每月會有三篇微調詳解固定分享給訂閱會員，歡迎訂閱。

#排版#設計#海報

2024/07/19

創作邦｜設計X工具X品牌的沙龍

設計微調 VOL.15-排版概念分析

排版微系列調專門分享如何透過一些調整讓設計與排版更好看，並且每張設計都會說明為何調整的原因，以及原本設計可能有的問題。如果你是設計初學者那這份內容會很適合你，因為會很細節的去講解排版原因，如果你看完喜歡，我每月會有三篇微調詳解固定分享給訂閱會員，歡迎訂閱。

#排版#設計#海報

2024/07/19

子不語怪・力・亂・神

Stable Diffusion練習，營火

最近在嘗試使用不同的AI生圖方式混合出圖的方式，採用A平台的優點，並用B平台後製的手法截長補短，創造出自己更想要的小說場景，效果不錯，現在以這張圖為例，來講一下我的製作步驟。

#StableDiffusion#AI繪圖#插畫

2024/07/15

子不語怪・力・亂・神

Stable Diffusion練習，營火

最近在嘗試使用不同的AI生圖方式混合出圖的方式，採用A平台的優點，並用B平台後製的手法截長補短，創造出自己更想要的小說場景，效果不錯，現在以這張圖為例，來講一下我的製作步驟。

#StableDiffusion#AI繪圖#插畫

2024/07/15

貓貓學習筆記

TextToSpeech-聲學特徵轉換

我們前面幾篇已經講完TTS技術的一大半架構了，知道了如何將聲學特徵重建回音訊波形，也從中可以知道要是聲學特徵不完善，最終取得的結果也會不自然，剩下要探討該如何將文字轉換成聲學特徵，且能夠自然地表現停頓及細節變化，讓我們開始吧。

2024/07/08

貓貓學習筆記

TextToSpeech-聲學特徵轉換

我們前面幾篇已經講完TTS技術的一大半架構了，知道了如何將聲學特徵重建回音訊波形，也從中可以知道要是聲學特徵不完善，最終取得的結果也會不自然，剩下要探討該如何將文字轉換成聲學特徵，且能夠自然地表現停頓及細節變化，讓我們開始吧。

2024/07/08

創作邦｜設計X工具X品牌的沙龍

設計微調 VOL.14-排版概念分析

排版微系列調專門分享如何透過一些調整讓設計與排版更好看，並且每張設計都會說明為何調整的原因，以及原本設計可能有的問題。如果你是設計初學者那這份內容會很適合你，因為會很細節的去講解排版原因，如果你看完喜歡，我每月會有三篇微調詳解固定分享給訂閱會員，歡迎訂閱。

#設計#排版#海報設計

2024/07/05

創作邦｜設計X工具X品牌的沙龍

設計微調 VOL.14-排版概念分析

排版微系列調專門分享如何透過一些調整讓設計與排版更好看，並且每張設計都會說明為何調整的原因，以及原本設計可能有的問題。如果你是設計初學者那這份內容會很適合你，因為會很細節的去講解排版原因，如果你看完喜歡，我每月會有三篇微調詳解固定分享給訂閱會員，歡迎訂閱。

#設計#排版#海報設計

2024/07/05

貓貓學習筆記

圖像風格轉換(四)-最終進化?

　　經過三篇的進展，我們目前實作的網路已經能做到同時訓練多種風格，且後續可以直接進行轉換，不用重新訓練，但是這種方法畢竟還是受到了預訓練的風格制約，無法跳脫出來，那麼有什麼辦法能夠讓他對於沒學過的風格也有一定的反應能力呢?

#AI#StyleTransform#Pytorch

2024/05/10

貓貓學習筆記

圖像風格轉換(四)-最終進化?

　　經過三篇的進展，我們目前實作的網路已經能做到同時訓練多種風格，且後續可以直接進行轉換，不用重新訓練，但是這種方法畢竟還是受到了預訓練的風格制約，無法跳脫出來，那麼有什麼辦法能夠讓他對於沒學過的風格也有一定的反應能力呢?

#AI#StyleTransform#Pytorch

2024/05/10

貓貓學習筆記

圖像風格轉換(二)-每次重訓練好麻煩

在第一篇我講到一開始的圖像風格轉換，每產生一張圖片都得重新訓練，這對於使用上難免綁手綁腳，所以理所當然的下一步就是要解決這個問題，看看能不能只要訓練一次，就可以重複使用。

#AI#StyleTransfer#Pytorch

2024/05/07

貓貓學習筆記

圖像風格轉換(二)-每次重訓練好麻煩

在第一篇我講到一開始的圖像風格轉換，每產生一張圖片都得重新訓練，這對於使用上難免綁手綁腳，所以理所當然的下一步就是要解決這個問題，看看能不能只要訓練一次，就可以重複使用。

#AI#StyleTransfer#Pytorch

2024/05/07

貓貓學習筆記

圖像風格轉換(一)-風格轉換初探

　　最近遇到一些人想做音訊的合成，我回答他或許可以從圖像風格轉換中找到些靈感，我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何，對於內部訓練邏輯及結構並沒有認真的去了解，現在剛好趁此機會好好的學習一下。

#AI#StyleTransfer#Pytorch

2024/05/06

貓貓學習筆記

圖像風格轉換(一)-風格轉換初探

　　最近遇到一些人想做音訊的合成，我回答他或許可以從圖像風格轉換中找到些靈感，我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何，對於內部訓練邏輯及結構並沒有認真的去了解，現在剛好趁此機會好好的學習一下。

#AI#StyleTransfer#Pytorch

2024/05/06

原來可以這樣做沙龍

從概念到實踐，教你如何運用AI生成來激發視覺和創意

運用生成的AI圖像來激發視覺和創意，無論是生成素材、用在社交媒體上，這些圖像都能為你的的視覺帶來獨特的風格。

#分享#創作#AI

2024/04/24

原來可以這樣做沙龍

從概念到實踐，教你如何運用AI生成來激發視覺和創意

運用生成的AI圖像來激發視覺和創意，無論是生成素材、用在社交媒體上，這些圖像都能為你的的視覺帶來獨特的風格。

#分享#創作#AI

2024/04/24

ComfyUI研究 - 虛實轉換

這篇要搭建一個同時生成寫實照片跟動漫風格圖片的工作流，還可以幫線稿上色。

#comfyui#stablediffusion#AI繪圖

2024/04/06

ComfyUI研究 - 虛實轉換

這篇要搭建一個同時生成寫實照片跟動漫風格圖片的工作流，還可以幫線稿上色。

#comfyui#stablediffusion#AI繪圖

2024/04/06

ComfyUI 研究 - 任意圖像放大

前篇測試如何把提示詞生成的圖像細節提高，這篇要測試的工作流是把任意圖像載入後經由放大模型放大，同時測試放大後重繪看看效果如何。

#comfyui#StableDiffusion#AI繪圖

2024/01/20

ComfyUI 研究 - 任意圖像放大

前篇測試如何把提示詞生成的圖像細節提高，這篇要測試的工作流是把任意圖像載入後經由放大模型放大，同時測試放大後重繪看看效果如何。

#comfyui#StableDiffusion#AI繪圖

2024/01/20

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News