生成式對抗網路GAN

閱讀時間約 6 分鐘

到目前為止,我們主要討論的目標都是找到一個可以預測答案的方程式,而不是生成獨一無二的東西。那生成式對抗網路的創造,就是為了這個目標而生。

Generator不同的點在於,輸入會額外加入一個機率分布simple Distribution Z,以產生一個隨機的輸出。

  1. 這組Distribution Z必須夠簡單,像是高斯、uniform這類的機率分佈都是可以的。
  2. 在每次有input時,都會搭配一個Z作為輸入。
raw-image

為什麼需要輸出一個generator?

我們可以先從一個例子來了解,EX: 小精靈遊戲

假設要輸出一個小精靈遊戲的video prediction,如果我們的輸入同時有小精靈向左轉和向右轉的遊戲內容,那就有可能會發生到轉角處,小精靈分裂成兩隻的狀況,因為機器想兩面討好,但這樣的答案我們不能用 , 所以要加入一個Z的機率分佈,讓向左轉向右轉呈現出機率分佈,只產生一組答案。

假設z為random variable → 這樣向左轉或向右轉各1/2的機率

當我們的任務需要一點創造力時,需要每次的答案都不同時,就可以利用generator。



Unconditional generation 

Unconditional具體來說就是將input X拿掉的generator。

我們實際以生成一張二次元圖片為目標作為一個例子。

假設我們的simple distribution Z為normal distribution,那我們的目標就是要透過generator生成複雜的distribution與高維的向量(像是64x64x3的向量)。

*Low-dim vector與 high-dim vector指的就是低維與高維的向量

raw-image


Distriminator

那在GAN裡頭,除了generator之外,我們還要另外訓練Distriminator作為generator的監視者。負責判別從generator生成的二次元圖片是不是真的二次元圖片。

此時,generator與discriminator彼此就會互相砥礪。

generator的目標就是讓Discriminator判別不出來,Discriminator就是要想辦法判別那些是generator創造的。最後就能得到最好的Generator。


具體流程:

  1. 初始化generator與discriminator。
  2. 固定目前的Generator,丟入一堆隨機產生的向量,產生一堆圖片輸出。
  3. 另外找一些真實的二次元圖片,將二次元圖片與generator產生的圖片輸出都丟進Discriminator判斷。
  4. 訓練Discriminator判斷哪些是真實圖片,那些是generator的輸出。可以想像成訓練分類問題,或是當作Regression訓練。
  5. 訓練完Discriminator後,改訓練generator,更新generator的參數,想辦法騙過Discriminator。
  6. 反覆以上流程,就能得到最好的二次元圖片。

*generator訓練的過程與一般network無異,都是採用gradient Decent。

*在訓練的過程不一定只有一組generator或是discriminator,也有可能有好幾層的Generator與Discriminator。


那要如何判別我們training出來的Generator的好壞呢?

  1. 我們直接透過眼睛判別
  2. 從Generator產生的圖片,丟進image classification,如果分類集中度越高,就代表分類器分類得出來,就代表Generator越好。 → 但這種方法會被Mode collapse騙過去。

*Mode collapse是一種generator走偏門的現象,當generator發現discriminator的某個盲點,從此只產生固定的那幾張圖,藉此騙過discriminator的現象,就被稱為mode collapse。除此之外,還有另外一種現象稱為Mode dropping,指的是Generator在產出的圖片中,某些特徵都使用相同的,只為了讓Discriminator能夠判別過,像是人臉都一樣,這樣多樣性就很小。

最後在了解了unconditional Generation之後,我們就可以加入input X,變成conditional Generation。Input X就會變成我們生成圖片的條件,結合我們設定的簡單機率分布,生成圖片。

那目前大多使用的訓練方式,就是將GAN結合supervised learning的方式訓練,除了生成圖片外,也希望與我們的條件X越接近越好。



但在訓練過程中,如果有其中一方停下來,就會無法繼續訓練,這也導致GAN本身是非常難訓練的model。

除此之外,我們回過頭看,之前篇章聊到的Transformer中的Decoder其實也是一種Generator,可以算是GAN在sequence上的訓練。但同樣的,如果在訓練的過程中發現,Decoder輸出的distribution與實際圖片之間的差距很小,就很難使用gradient decent改善參數,那就會很難Train GAN。

為了解決這問題,就有人提出Pre-train的概念。這一部分就牽扯到的BERT與GPT的部分,等到下一篇,我們再來好好討論~


Cycle GAN

那前面我們訓練GAN的方式都是supervised learning,也就是有參考答案來比較。但如果我們完全沒有參考的output Y(unsupervised learning)的話呢?在這樣的情況下,Generator有可能只確保在Discriminator上拿到高分就好,那就可能導致Generator都只產生一樣的圖,或是用偏門的方式過關,這樣就達不到訓練的效果。

那解決的方式就是可以使用cycle GAN的方式training。

Cycle GAN 的原理就是除了原有的Generator1以外,我們還額外增加一個Generator2,用來將Generator1輸出的vector還原成原有的圖片Y。

接著我們將還原的圖片Y與原有的圖片X比較,目標是越接近越好。

額外增加的Generator2作為條件,就能限制Generator1往正確的訓練過程。

*不同的learning方式整理:

supervised: 一般來說我們需要有成對的X與Y,我們才能訓練Network。

semi-supervised: 我們有一堆X與一堆Y,有一些成對,有一些沒有成對。

unsupervised: 完全沒有成對的資料。

raw-image


那以上就是GAN的知識整理,我們下一篇見~




1會員
37內容數
留言0
查看全部
發表第一個留言支持創作者!
dab戴伯的沙龍 的其他內容
本文介紹了Transformer中的Encoder Decoder與Cross Attention的運作方式以及的應用。涉及self-attention、autoRegressive Decoder、Non-AutoRegressive Decoder、Cross Attention等概念。
本文介紹了self-attention在處理不固定大小輸入值時的應用,並討論瞭如何計算self-attention以及transformer中的multi-head self-attention。此外,文章還探討了在語音辨識和圖片處理中使用self-attention的方法,以及與CNN的比較。
卷積神經網路(CNN)是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用,包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文,讀者將瞭解CNN在影像辨識領域的優勢和運作原理。
本文介紹了在深度學習中使用Batch Normalization來解決error surface複雜性的問題。通過特徵歸一化來加速收斂速度和訓練順利程度。同時,也提到了在測試階段使用moving average計算平均值和標準差的方法。
瞭解如何透過Regression實作Classification,使用one-hot vector表示不同的類別,並透過乘上不同的Weight和加上不同的bias來得到三個數值形成向量。同時通過softmax的方式得到最終的y'值,並探討使用Cross-entropy來計算類別的loss。
瞭解梯度下降算法中的學習速率調整,包括為什麼需要動態的學習速率、Root Mean Square、RMSProp、最常用的optimization策略Adam,以及如何進行Learning rate Scheduling。
本文介紹了Transformer中的Encoder Decoder與Cross Attention的運作方式以及的應用。涉及self-attention、autoRegressive Decoder、Non-AutoRegressive Decoder、Cross Attention等概念。
本文介紹了self-attention在處理不固定大小輸入值時的應用,並討論瞭如何計算self-attention以及transformer中的multi-head self-attention。此外,文章還探討了在語音辨識和圖片處理中使用self-attention的方法,以及與CNN的比較。
卷積神經網路(CNN)是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用,包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文,讀者將瞭解CNN在影像辨識領域的優勢和運作原理。
本文介紹了在深度學習中使用Batch Normalization來解決error surface複雜性的問題。通過特徵歸一化來加速收斂速度和訓練順利程度。同時,也提到了在測試階段使用moving average計算平均值和標準差的方法。
瞭解如何透過Regression實作Classification,使用one-hot vector表示不同的類別,並透過乘上不同的Weight和加上不同的bias來得到三個數值形成向量。同時通過softmax的方式得到最終的y'值,並探討使用Cross-entropy來計算類別的loss。
瞭解梯度下降算法中的學習速率調整,包括為什麼需要動態的學習速率、Root Mean Square、RMSProp、最常用的optimization策略Adam,以及如何進行Learning rate Scheduling。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
生成式AI運用大數據形塑語言模型,產生大量具有邏輯結構的語言符號。數位世代的孩子如果沒有良好的語言、語感能力,面臨龐大資訊以等比級數迅速增長的時代,絕對無法精準辨識何謂正確訊息,最後終將陷入媒體焦慮,以致身心靈更加困乏。
Thumbnail
AI熱潮中存在可靠性存疑與濫用的陰影。AI的影響與抉擇,值得我們深思。
Thumbnail
MIT Sloan Management Review 刊登了一篇關於生成式人工智能中獲利者的新觀點文章,從技術架構到主要獲利者,以及面臨的機會與挑戰進行了探討。對於AI行業的從業者和學術研究人員來說,這份文章提供了寶貴的資訊。
Thumbnail
近年來,隨著人工智慧技術的快速發展,Python結合生成式AI正逐漸成為行銷領域的重要利器。對於行銷專業人士來說,這股趨勢更是值得關注和深入研究。 Python和AI將會為行銷領域帶來什麼改變?
Thumbnail
前言 在AI經歷數個冰河期後,終於在後疫情時代來到了一個技術高峰,而這個破冰者就是OPen AI(ChatGPT),對於這個話題不管你是是正在接觸AI,對AI技術有些了解的人,抑或是專業領域上對於AI介入感到焦慮的人都希望可以文中得到收穫。 本文想分享一些個人對於AI的理解及對於LLM模型的一些
Thumbnail
此篇文章介紹兩個生成式AI app,反思AI工具與教師角色
Thumbnail
生成式AI,這不僅僅是一個新奇的技術詞彙,它正在全方位地重新塑造我們的日常和商業格局。從你的智能手機到車上的自駕功能,再到商家使用的各式創新工具,AI已經不再陌生。而當我們提到生成式AI應用程序,例如ChatGPT、GitHub Copilot和Stable Diffusion等,它們已經成為了話題
Thumbnail
繼前一陣子 Facebook 的元宇宙浪潮席捲全球,今年微軟旗下的 AI 聊天機器人「ChatGPT」更是引爆話題!不只每個人對未來的生活與市場型態有了不一樣的想像,許多家長和學生們更是開始煩惱,面對今年的 AI 元年,該怎麼提前準備與選擇科系,才能搶先跟上未來趨勢與世界接軌而不被淘汰。 首先
Thumbnail
ChatGPT 只用兩個月便達到億次用戶,OpenAI 研發的快速更是讓 GPT-4 做到可以用 Bing 連網整合,並透過 plugin 做到堪比大學程度的人類邏輯推導。如今,GPT 正式踏入連上網路的紀元。這代表,我們對於即時資訊的理解可能有所不同。
Thumbnail
用於訓練AI的圖片聲音影片到底有沒有版權? 我一直認爲這是一個棘手的問題,而日本政府卻發了先例,而且是允許任何資料都可以訓練AI! 對於創作者、漫畫家和各類數位藝術家,未來的版權生態即將會有巨大的轉變! 下面這是我認為,面對生成AI蓬勃發展,對未來創作版權新生態,創作者現在就要開始思考的3個轉機:
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
生成式AI運用大數據形塑語言模型,產生大量具有邏輯結構的語言符號。數位世代的孩子如果沒有良好的語言、語感能力,面臨龐大資訊以等比級數迅速增長的時代,絕對無法精準辨識何謂正確訊息,最後終將陷入媒體焦慮,以致身心靈更加困乏。
Thumbnail
AI熱潮中存在可靠性存疑與濫用的陰影。AI的影響與抉擇,值得我們深思。
Thumbnail
MIT Sloan Management Review 刊登了一篇關於生成式人工智能中獲利者的新觀點文章,從技術架構到主要獲利者,以及面臨的機會與挑戰進行了探討。對於AI行業的從業者和學術研究人員來說,這份文章提供了寶貴的資訊。
Thumbnail
近年來,隨著人工智慧技術的快速發展,Python結合生成式AI正逐漸成為行銷領域的重要利器。對於行銷專業人士來說,這股趨勢更是值得關注和深入研究。 Python和AI將會為行銷領域帶來什麼改變?
Thumbnail
前言 在AI經歷數個冰河期後,終於在後疫情時代來到了一個技術高峰,而這個破冰者就是OPen AI(ChatGPT),對於這個話題不管你是是正在接觸AI,對AI技術有些了解的人,抑或是專業領域上對於AI介入感到焦慮的人都希望可以文中得到收穫。 本文想分享一些個人對於AI的理解及對於LLM模型的一些
Thumbnail
此篇文章介紹兩個生成式AI app,反思AI工具與教師角色
Thumbnail
生成式AI,這不僅僅是一個新奇的技術詞彙,它正在全方位地重新塑造我們的日常和商業格局。從你的智能手機到車上的自駕功能,再到商家使用的各式創新工具,AI已經不再陌生。而當我們提到生成式AI應用程序,例如ChatGPT、GitHub Copilot和Stable Diffusion等,它們已經成為了話題
Thumbnail
繼前一陣子 Facebook 的元宇宙浪潮席捲全球,今年微軟旗下的 AI 聊天機器人「ChatGPT」更是引爆話題!不只每個人對未來的生活與市場型態有了不一樣的想像,許多家長和學生們更是開始煩惱,面對今年的 AI 元年,該怎麼提前準備與選擇科系,才能搶先跟上未來趨勢與世界接軌而不被淘汰。 首先
Thumbnail
ChatGPT 只用兩個月便達到億次用戶,OpenAI 研發的快速更是讓 GPT-4 做到可以用 Bing 連網整合,並透過 plugin 做到堪比大學程度的人類邏輯推導。如今,GPT 正式踏入連上網路的紀元。這代表,我們對於即時資訊的理解可能有所不同。
Thumbnail
用於訓練AI的圖片聲音影片到底有沒有版權? 我一直認爲這是一個棘手的問題,而日本政府卻發了先例,而且是允許任何資料都可以訓練AI! 對於創作者、漫畫家和各類數位藝術家,未來的版權生態即將會有巨大的轉變! 下面這是我認為,面對生成AI蓬勃發展,對未來創作版權新生態,創作者現在就要開始思考的3個轉機: