簡介

GAN的目標以數學角度來說，是要在高維空間中找到一個distribution

如上圖，2D平面是一個image space，藍色是人臉的圖片分布，則GAN就是要找出這個分布
(而那些點就是圖片，但人臉圖片只占所有圖片的一部分)

Maximum Likelihood Estimation

該分布P_data(x)我們其實不知道是甚麼，只能用sample的方式
利用P_G(x;_{θ)去逼近P_data}

作法:
sample {x1,x2… xm} from P_data(x) 我們計算 P_G(xi;_{θ) (回傳值是xi在P_G內的機率)}

Likelihood

我們希望在P_data內sample出的x1~xm，出現在P_G內的機率越大越好

接下來尋找好的_{θ值，使L最大即可}

數學式如下:

上述如果不使用常態分佈，P_G(xi;_{θ) 無法求得(不知道機率密度函數)}

但如果使用常態分布，可能無法完整的擬合高維中的真實分佈，造成一些誤差(比如生成照片模糊)

解法:用Nerual Network作為Generator
將distribution通過一個NN，讓NN將分布的形狀"改造”

如果知道P_G、P_data的distribution，就可以用gradient descent
但通常無法得知

解法: 使用Discriminator sample P_G (sample random vec,輸入G讓其生成)與 P_data

本質上就是一個二分類問題(邏吉斯回歸)

概念上: 兩堆越接近，會讓D越難區分，divergence越小

求解數學式如下

目標是找出D使其值最大，那麼對該式子以D這個函數微分，求解為0處就好解出D的形式如下

再代回Objective function，會的到JS divergence的結果

也就是說，在此定義上，求discrimination目標函數最大化，就是最佳化divergence

因此我們可以得到下列的稍微有點繞的結果
紅點就是D在找的，(給定Distribute的最高點)
G3就是G在找的(在所有的D的最高點找出最小的(divergence最小的))
所以可得知其最高處就是divergence

就是GAN的做法 init D,G for i in iter:
先固定G，更新D
再把G、D視為一個網路，固定D，更新G

如果單看最佳化式，將maxD部分視為L(G)

用gradient descent即可

但是L(G)內有max operator，可以微分嗎?
答案是可以，只要將各範圍內的最大值函數，拿出來微分就好

故每次確認自己的範圍，然後再算gradient，再更新參數 => loop 即可

但這很顯然會發生問題:
如果D函數變動很大，那gradient有可能瞬間跑偏
如圖，紅點一變，反而離最大值很遠(就不是在量divergence了)
事實上，我們會假設函數變動不大，因此每次更新參數要小

演算法如下圖

注意G不能更新太多次

直覺: 假分布的點會追求D(x)最高點，到最後真假分布會重和，D(X)會變水平線