はじめに

AnoGANの論文を読んだのでそれについて書いていきます．
間違いや勘違いがありましたらコメントかTwitterで知らせてください．
論文:Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery (https://arxiv.org/abs/1703.05921)
Chainerで書いたコード:(https://github.com/ihatasi/Learning/tree/master/Generation/GAN/AnoGAN)

概要

教師なしで正常データを学習し，正常データのみ生成できるDCGANを手に入れます（学習時に使った分布内ならどんなzの値を入れても正常データのような画像しか出力できない）．次にDCGANのDiscriminatorとGeneratorを用いて新しい入力xに対して最も近いx'を生成できるzの値を探索します．このとき，最適なzがうまく見つかれば正常データとでき，見つからなければ入力データxは学習していない（異常）データであるとできます．入力xにできるだけ近づけようとしますが，正常データしか生成できないので結果的に入力（異常）データに最も近い正常データが出力され，差分を取ることによって正常データと比べてどこが異常であるかがわかります．

背景・提案

今までの医療データに対するAnomaly detectionのモデルは，annotateされた教師データの数に依存していました．そこで今回は以下の2点が提案されています．

大量の教師なしデータを使った異常の識別手法（AnoGAN）の提案．
異常のスコア付け枠組み（Anomaly scoring scheme）の提案．

学習

f:id:ihatasi:20190420005824p:plain — Fig.1. 引用(https://arxiv.org/pdf/1703.05921.pdf p.2)

今回は，Fig.1のような実際の医療データ（網膜）で実験しています．論文では以下のように，DCGANによる正常データの多様体の学習とAnoGANによるz値の探索のための学習の2段階の学習が行われています．

パッチ処理した正常データの画像をDCGANに入力して学習させます（Fig.1.左側, Fig.2）．
Fig.2.DCGANの学習モデル
1で得たDiscriminatorとGeneratorを更新なしで用いて入力データxに対して勾配降下法で最適なz値の探索をします．このとき，Generatorは正常個体しか生成できないため，入力画像xと生成画像G(z)の差分を取ることにより異常箇所を見つけることができます（Fig.1.右側, Fig.3）．
損失関数は以下のようになっています．

$L_R({\bf z\_\gamma})=\sum{|{\bf x}-G({\bf z\_\gamma})|}...(1)$
$L\_R$ :Residual Loss, ${\bf z\_γ}$ :γ回更新した ${\bf z}$ の位置，γ=1,2,...,Γ(Γは最も ${\bf x}$ らしい $G({\bf z\_Γ})$ )
式(1)は元画像と生成画像の差をLossとし，入力画像xに最も似た画像を生成できるzのとき最小になります．
$L_D({\bf z\_\gamma})=\sum{|{\bf f(x)}-{\bf f}(G({\bf z\_\gamma})|}...(2)$
$L\_D$ :Discrimination Loss, ${\bf f()}$ :Discriminatorの中間層の出力
式(2)は入力画像xと生成画像 $G({\bf z\_\gamma})$ のDiscriminatorのfeature matchingです(feature matchingはGANの改善手法の1つ)．
次の式(1)と式(2)を合わせたものを今回の損失関数とする． $L({\bf z\_γ})=(1-λ)L\_R({\bf z\_γ})+λL\_D({\bf z\_γ})...(3)$
$λ$ :ハイパーパラメータ(今回は0.1)

f:id:ihatasi:20190420015631p:plain — Fig.3.AnoGANの学習モデル

z値を勾配降下法で求める際，ChainerではValiableに対してOptimizerを使えないため（TensorflowだとValiableに対してもOptimizerを使えるらしい？未確認），代わりにOptimizerで更新できるz'と同じサイズのFCを用意して2つ合わせたものを1つのzとして見ます（FCの重み初期値は1，バイアスはなし）．