李弘毅老師機器學習2021心得-8,Batch normalization

--

想法: 直接把難做的error surface,進行一些處理。

觀察error surface的陡峭以及平滑會因為輸入feature而影響,以圖中為例,w2的變化比較陡峭原本就是因為x2 feature特徵值較大。

所以可以嘗試進行Feature Normalization,標準化。

對feature進行標準化

並且因為feature在經過layer轉換,產生的是高階的feature,還是有可能有大小的差異,所以最好可以再做一次normalization(before or after activation function)。

最後還會再加上B y參數,有點類似再加一層。

Testing

在testing沒有batch時,透過用之前的batch,來彌補現在因為batch數量不構無法算出來的平均。

Internal Covariate shift

paper指出這個問題,不一定存在,batch normalization也不一定解決這個問題。

--

--

Kola (Yan-Hao Wang)
Kola (Yan-Hao Wang)

Written by Kola (Yan-Hao Wang)

在系統軟體跟資安領域學習的學生

No responses yet