更新於 2024/12/12閱讀時間約 6 分鐘

讓我們談一下「以圖生圖」

什麼是深度學習?

深度學習是一種讓電腦「自我學習」的技術。傳統上,我們需要告訴電腦該注意哪些特徵,但深度學習不需要人為指定。首先,你餵給電腦非常多的圖片,它會一步步學會區分:哪裡是邊緣、哪裡是顏色、怎麼判斷物體是貓還是狗。經過大量資料的訓練,電腦會在自己的「腦袋」(即多層神經網路)裡調整很多數字,最後它就能自動從雜亂的資訊中找出規律,達到分類、辨識,甚至創造新東西的能力。

什麼是生成式模型?

生成式模型是深度學習中的一種特別工具。以前的電腦只能辨識「這是什麼」,但生成式模型還能「做出新的東西」。它們從學到的資料中,了解怎麼畫出類似但不一樣的圖像。比如說,如果它看過很多貓的照片,它就能自己憑空「畫」出一張從沒出現過的貓圖。這種模型不是在複製,而是根據過去學到的特徵,創造新作品。

以圖生圖的應用

「以圖生圖」就是你給電腦一張原圖,它能「聽懂」你的指令,把原圖變成全新風格的圖片。比方說,你給電腦一張自己的大頭照,並要求「幫我變成休閒風格的我」,電腦就能運用它所學到的規則,把你的臉換成像休閒風格的圖片了。

以圖生圖的體驗:A1 art

最近有一個網站很夯,他叫做 A1.art (是數字1,而不是 AI art 喔),他就是利用「以圖生圖」概念的好例子。你只要先上傳自己的大頭照,然後你自己從他的2000多種模板當中挑出一種洗ㄏ風格,A1.art 的 AI 系統就能把將你的大頭照重新「畫」一張出來,讓你的臉用完全不同的美術風格呈現。透過深度學習和生成式模型的力量,A1.art 讓一般人不用懂程式或繪圖技巧,也能輕鬆把想法變成精緻又有創意的新圖像。

可以將整個過程簡化為以下三個步驟:

  1. 特徵萃取
    當你上傳一張臉部照片,AI 首先會透過已訓練的深度神經網路分析該圖像,抓取臉部特徵(如眼睛、鼻子、嘴巴、臉形結構等)。這個步驟就像在「讀」你的臉,把重要的五官資訊轉化為電腦能理解的數字特徵。
  2. 風格轉移
    接著,AI 會參考你所選擇的風格(例如:卡通、油畫、科幻風)。透過特定的生成式模型,系統把剛剛萃取到的臉部特徵套用到這個風格「框架」裡,並開始重新「繪製」你的臉部特徵,使之呈現出新風格的視覺效果。
  3. 圖片生成
    最後,AI 將整合特徵資訊與風格設定,生成一張全新圖片,並保有你的五官特點。這一張完成品正是「以圖生圖」的成果,也就是 A1.art 等類似服務所提供的轉換成品。

同學們可以自己實作看看,例如:

  1. 想要3D卡通版的自己,在瀏覽器輸入 a1.art/h6iz,或直接點連結。
  2. 想要上班族的自己,在瀏覽器輸入 a1.art/hy5g,或直接點連結。
  3. 想要打棒球的自己,在瀏覽器輸入 a1.art/hev5,或直接點連結。
  1. 想要木炭畫風的自己,在瀏覽器輸入 a1.art/sep7,或直接點連結。
  2. 想要超人公仔的自己,在瀏覽器輸入 a1.art/2b5q,或直接點連結。
  3. 想要跟名車合照的自己,在瀏覽器輸入 a1.art/n2al,或直接點連結。
  1. 想要拿耶誕禮物的自己,在瀏覽器輸入 a1.art/nf3n,或直接點連結。
  2. 想要穿西裝打領帶的自己,在瀏覽器輸入 a1.art/ys2j,或直接點連結。
  3. 想要日式漫畫美學JOJO風格的自己,在瀏覽器輸入 a1.art/​2y5v,或直接點連結。

媽呀!有的根本不像我

即使你用同一張大頭照,但畫出來的可能會有很大差異。這是什麼問題呢?既然是同一個AI,用的就是相同的特徵萃取與風格轉換技術,但實際生成結果卻可能出現「不穩定」的情況,原因包括:

  1. 模型的隨機性
    生成式模型在產圖時常有隨機因素,因此每次生成的細部可能略有差異。即使同樣的臉部特徵與同樣的風格設定,每次運算都可能產生些微不同的結果。
  2. 風格複雜度
    有些風格模板相對簡單,模型容易準確再現你的特徵;但某些風格過於抽象、誇張或細節複雜,模型在重繪時更有可能「走樣」,導致臉部特徵呈現不如預期地一致。
  3. 特徵匹配度
    模型萃取你的臉部特徵並嘗試將它映射到指定風格中,有時特定的臉部特徵與所選風格的「特徵要求」相差較大,使模型要維持相似度變得困難。

如何讓AI將你畫得更像?

不知道你有沒有注意到,LINE也有推出一個類似的服務,叫做「個人檔案工作室」,他宣稱只要上傳自己在不同角度、不同光線條件和臉部表情有些微不同的8~12張大頭照,就可以幫你生出20張攝影棚品質的AI證件照。他就是想要讓 AI 有足夠「材料」去精煉你的臉部特徵,進而產出貼近專業攝影水準的證件照。

  1. 臉部特徵的完整掌握
    多角度、多光線和不同微表情的照片,讓 AI 能更全面地了解你的五官特徵,確保最後生成的證件照更像「真實的你」。
  2. 降低失真與走樣風險
    光用一兩張照片,模型可能在生成過程中失去某些臉部細節或特徵比例。多張照片提供更豐富的臉部資訊,使 AI 能更精準地還原你的臉型、膚色、輪廓,減少生成圖像出現怪異比例或不自然變形的情況。
  3. 提升影像品質與細緻度
    有了更多參考資料,AI 可以更自信地對你的臉部特徵做微調,同時套用攝影棚級的光影與細節處理,使生成的證件照不僅清晰、自然,還帶有專業感。
  4. 提高一致性與可重現性
    多張訓練照片讓 AI 對你的臉部特性形成較穩定的「內部模型」,之後不論生成多少張照片,都能保持在同一風格與水準,品質不易忽上忽下。


分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.