圖像風格轉換(一)-風格轉換初探

更新於 2024/05/06閱讀時間約 2 分鐘

一.引言

  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。

二.圖像風格說明

  對於圖像風格轉換,可以往前推至 Gatys et al. 2015 的 A Neural Algorithm of Artistic Style 這篇論文,當中提出了使用 VGG16/19 作為特徵擷取層,最終達成了單次單張圖像的風格轉換。

  首先,我們來說明一下為什麼能做到風格轉換,在這篇論文中,將風格轉換問題視為一個對圖同時進行<內容>及<風格>的優化,希望一張圖在特徵擷取後的特徵,與分別對內容圖及風格圖進行相同的特徵擷取後的結果進行相關性計算,若兩者都收斂,及代表該圖同時保有內容圖的風格圖的內容。

  這是一個有趣的方向,因為與目前通常的使用來說,優化的通常是模型本身,而這邊採取的是優化圖像,模型是不用進行參數更新的,接下來會簡單介紹整體訓練流程 :

三.實際演練

首先先定義出內容圖像及風格圖像,這邊就用我的拉拉肥及五條來試試

raw-image

  在訓練時,會持續使用這兩張圖像計算 Content Loss 及 Style Loss ,以下為簡易流程圖。

raw-image

  至於最重要的 Loss 方面,Content Loss 採用 MSE 進行兩張圖內容上的相似度判斷,而 Style Loss 方面,因為需要凸顯出風格,所以是採用 Gram 矩陣的方式,所謂的Gram 矩陣是將特徵向量與自己的轉置相乘,最終獲取的矩陣可以理解成不同特徵的相關響應,且忽略它們在圖像中的具體位置,這樣的方式能好好的抓住風格的本質──紋理與視覺模式的總體分布。

  以下為實際的結果,實際實驗時可以嘗試調整優化器,原論文中的LBFGS雖然收斂很快,但有機率梯度爆炸,若調整成 Adam 雖然收斂變慢,但可以穩定的的收斂,若想看到逐漸變化的過程,使用 Adam 會是一個好辦法。

raw-image

四.結語

  本次實驗的風格轉換確實是個有趣的方式及方向,但缺點也很明顯,因為訓練的是圖像本身,意味著生成一張圖像都得重新經過訓練,沒有記憶功能,且結果稍不可控,但這方法也奠基的一個風格轉換的基礎,我接下來會逐步介紹接下來的變體。

另外本次實作程式碼也同步更新於Github

avatar-img
8會員
21內容數
AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記,也包含一些心得,主要是幫助自己學習,若能同時幫助到不小心來到這裡的人,那也是好事一件 : )
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
Freepik除了提供素材下載外,還可以線上生成AI圖片, 圖片生成工具名為「AI Image Generator」,只需要輸入文字就能快速生成圖片,每天能免費生成 20 張圖片,還可依照自己的喜好設定不同風格、燈光、畫面尺寸等參數。
Thumbnail
Tenge AI是一款免費的AI圖像生成器,支持中文和英文提示詞或圖像上傳生成。它提供了19種風格,並可以用於商業用途。
Thumbnail
可能包含敏感內容
這邊紀錄使用Bing images create 生成原圖並利用Tensor art
Thumbnail
AI 繪圖提詞咒語(prompts)詠唱,如何呈現/表現一張圖像的風格,同時,還能夠學英文!
Thumbnail
幾乎可以說是跟stable diffusion一體同命的ControlNet的XL版本總算是上線了,算是為SDXL補上最關鍵一塊地圖,以下快速的來瀏覽一下它的安裝方式與功能吧。
Thumbnail
柔軟具伸縮性的運動服裝,緩緩沿著身型塑出身體曲線,香奈爾按此概念設計服裝。
Thumbnail
Midjourney生成式AI利用強大技術,讓設計師輕鬆創造多樣風格的Line貼圖,充滿獨特魅力。不僅提高設計效率,也激發無限創意,帶來全新創作體驗,革新平面設計。這篇文章詳解Midjourney設計步驟與生成設計成果!
Thumbnail
本文介紹了如何使用Midjourney平台生成驚奇隊長圖像。用戶可以根據喜好和需求,設定風格、尺寸和細節,生成獨特的驚奇隊長圖像。文章提供了不同風格和場景的指令範例,並分析了生成圖像的質量、細節和潛在限制。此外,生成的圖像可作為創意靈感,應用於個人或商業項目。
Thumbnail
An Chen,一個用形狀畫畫的插畫家。喜歡用具幾何機械感的手法繪製花草,在有機物、無機物中無止盡的實驗著。2019年畢業於劍橋藝術學院兒童繪本系,作品多出現於報紙雜誌編輯領域,國內外客戶比較有名的有Apple、Gucci、The New Yorker、紐約時報、華爾街郵報、週刊編集、台灣設計展等。
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
Freepik除了提供素材下載外,還可以線上生成AI圖片, 圖片生成工具名為「AI Image Generator」,只需要輸入文字就能快速生成圖片,每天能免費生成 20 張圖片,還可依照自己的喜好設定不同風格、燈光、畫面尺寸等參數。
Thumbnail
Tenge AI是一款免費的AI圖像生成器,支持中文和英文提示詞或圖像上傳生成。它提供了19種風格,並可以用於商業用途。
Thumbnail
可能包含敏感內容
這邊紀錄使用Bing images create 生成原圖並利用Tensor art
Thumbnail
AI 繪圖提詞咒語(prompts)詠唱,如何呈現/表現一張圖像的風格,同時,還能夠學英文!
Thumbnail
幾乎可以說是跟stable diffusion一體同命的ControlNet的XL版本總算是上線了,算是為SDXL補上最關鍵一塊地圖,以下快速的來瀏覽一下它的安裝方式與功能吧。
Thumbnail
柔軟具伸縮性的運動服裝,緩緩沿著身型塑出身體曲線,香奈爾按此概念設計服裝。
Thumbnail
Midjourney生成式AI利用強大技術,讓設計師輕鬆創造多樣風格的Line貼圖,充滿獨特魅力。不僅提高設計效率,也激發無限創意,帶來全新創作體驗,革新平面設計。這篇文章詳解Midjourney設計步驟與生成設計成果!
Thumbnail
本文介紹了如何使用Midjourney平台生成驚奇隊長圖像。用戶可以根據喜好和需求,設定風格、尺寸和細節,生成獨特的驚奇隊長圖像。文章提供了不同風格和場景的指令範例,並分析了生成圖像的質量、細節和潛在限制。此外,生成的圖像可作為創意靈感,應用於個人或商業項目。
Thumbnail
An Chen,一個用形狀畫畫的插畫家。喜歡用具幾何機械感的手法繪製花草,在有機物、無機物中無止盡的實驗著。2019年畢業於劍橋藝術學院兒童繪本系,作品多出現於報紙雜誌編輯領域,國內外客戶比較有名的有Apple、Gucci、The New Yorker、紐約時報、華爾街郵報、週刊編集、台灣設計展等。