Orthogonal Sphere Regularization
Last updated
Last updated
最後のglobal average poolingをk個に等分割して、それぞれの内積が0に近いくなるような正則化項。
k=16で実験している。
これで背景の変化に頑健になるようだが、ロジックまではよくわかってない。
論文内では、ΠモデルとSNTGとAMCが従来法として記載されていて、組み合わせて使用されてる。
以下の論文に、Temporal Ensemblingとの比較として上がっている。
L_Cは普通のCEなど。R_Cがラベルのない学習データを活用するための正則化項となる
fはNoisy teacher modelで、ランダムな摂動ξを受ける
同様にfは摂動ξを受ける
dは2つの予測される確率分布間のdivergenceである。
これにより、摂動に頑健かどうかを示すロスとして機能している。
より具体的には
摂動ξ'を加えたf~やらθ'の出力と、これとまた別の摂動ξを加えた場合に、2つのKL divergenceなどが大きくならないように学習する。
摂動は、入力のaugmentationやdropoutなどのネットワークの編集などを含んでいるみたい。
論文は前節と同じ
Temporal emsemblingはzを指数平滑化する。
また、立ち上がりを補正するため、学習の初期段階では1-α^tで除算する。
z, z~計算時のパラメータを同じものを使わずに、studentとteacherにわけてそれぞれでdivergenceを計算する。
teacherのパラメータは、studentとは異なり、studentの指数平滑フィルタで更新する。
ΠモデルやMean Teacherは、その推論結果の予測ラベルが異なる場合にも、差を縮めようとするのでよくない。
そこで同じラベルの場合は、低次元特徴量 l_i, l_jのユークリッド距離が小さくなるよう制御し、
そこで異なるラベルの場合は、低次元特徴量 l_i, l_jのユークリッド距離が大きくよう制御する。(ただし上限はm_eで制御する)
SNTGのユークリッド距離を、geodesic metric defined for unit-normalized latent representationsにした。
geodesic metricは測地線と訳され、曲面上の距離っぽい?unit-normalized latent representationsはよくわからない。
Grad-CAMの解釈なども最適になるらしい。
z_i, z_jは最終層出力かな? ⇒ 違うみたい。これがunit-normalized latent representationsのようだ。
unit-normalized latent representationsは以下の正規化で、x_iは一番深い層の特徴量である。