圖像風格轉換(四)-最終進化?

2024/05/10 更新2024/05/10 發佈閱讀 4 分鐘

一.引言

　　經過三篇的進展，我們目前實作的網路已經能做到同時訓練多種風格，且後續可以直接進行轉換，不用重新訓練，但是這種方法畢竟還是受到了預訓練的風格制約，無法跳脫出來，那麼有什麼辦法能夠讓他對於沒學過的風格也有一定的反應能力呢?

二.方法說明

　　在上篇我們談到了CIN，其基本概念假設風格可以藉由正規化的特徵向量進行線性組合而得，所以不同的風格只是代表了不同的線性組合參數，所以，是不是只要能自動的根據不同的風格產生出不同的參數組合，就能在沒訓練的風格情況下也有一定效果呢?

　　在這個想法下，Ghiasi et al. 2017 提出的 Exploring the structure of a real-time, arbitrary neural artistic stylization network 便使用了一個風格預測模型去預測一個風格向量，並且在CIN模塊內導入風格向量去自行產生Gamma及Beta值，這樣一來只要同時訓練這個風格預測模型，就能夠在未訓練的風格上也有一定的泛用性。

三.實際演練

　　實際操作上CIN與風格向量的銜接方法挺特殊的，若風格向量為1000維，在使用時會使用線性層將1000維再次壓縮成每個CIN模組需要的大小，以下為修改後的捲積層，詳細整體實作可以前往我的Github:

class ConvLayer(nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size, stride,style_vector_size):
        super(ConvLayer, self).__init__()
        padding = kernel_size // 2
        self.reflection_pad = nn.ReflectionPad2d(padding)
        self.conv2d = nn.Conv2d(in_channels, out_channels, kernel_size, stride)
        self.cin = CIN(out_channels)
        self.style_gamma = nn.Linear(style_vector_size, out_channels)
        self.style_beta = nn.Linear(style_vector_size, out_channels)

    def forward(self, x, style_vector):
        # 获取本层的gamma和beta
        gamma = self.style_gamma(style_vector).view(-1, self.conv2d.out_channels, 1, 1)
        beta = self.style_beta(style_vector).view(-1, self.conv2d.out_channels, 1, 1)
        
        out = self.reflection_pad(x)
        out = self.conv2d(out)
        out = self.cin(out, gamma, beta)
        return out

本次訓練集使用 COCO(作為content) 及 Painter by numbers(作為style)進行訓練，其中有幾點本次實作遇到的小坎 :

圖片載入時的正規化動作在訓練時造成了影響，將其拿掉在我的實驗中有更好的效果
content weight 及 style weight 及 tv weight 的設定需要再調整
因為本次同時要對兩個資料集做迭代，其中以content為主，所以要注意style dataset的迭代狀況
請注意預測時的每個部件都處在正確的狀態，否則會出現復現失敗的問題

以下為實驗結果 :

四.結語

　　從實驗結果來看，目前我的模型對於鮮豔色彩及幾何風格尚無法很好的表現出來，但接下來就是超參微調及持續訓練的問題，於是想了想還是將目前狀態整理好發了出來，對於風格轉換的研究也會先告一段落，雖然風格轉換後續還有很多有趣的用法，如更細微的控制及結合不同風格的綜合體，但到此為止也已經對於風格轉換有著基本的認識，接下來會進行其他領域的探索，當然也期待著有機會能再將風格轉換系列繼續寫到最新，讓我們下篇再見 OwO/

留言

貓貓學習筆記

10會員

21內容數

AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記，也包含一些心得，主要是幫助自己學習，若能同時幫助到不小心來到這裡的人，那也是好事一件 : )

貓貓學習筆記的其他內容

2024/07/08

TextToSpeech-聲學特徵轉換