Orthogonal Sphere Regularization

論文

概要

  • 最後のglobal average poolingをk個に等分割して、それぞれの内積が0に近いくなるような正則化項。

  • k=16で実験している。

  • これで背景の変化に頑健になるようだが、ロジックまではよくわかってない。

  • 論文内では、ΠモデルとSNTGとAMCが従来法として記載されていて、組み合わせて使用されてる。

従来法

Πモデル

  • L_Cは普通のCEなど。R_Cがラベルのない学習データを活用するための正則化項となる

  • fはNoisy teacher modelで、ランダムな摂動ξを受ける

  • 同様にfは摂動ξを受ける

  • dは2つの予測される確率分布間のdivergenceである。

  • これにより、摂動に頑健かどうかを示すロスとして機能している。

  • より具体的には

    • 摂動ξ'を加えたf~やらθ'の出力と、これとまた別の摂動ξを加えた場合に、2つのKL divergenceなどが大きくならないように学習する。

    • 摂動は、入力のaugmentationやdropoutなどのネットワークの編集などを含んでいるみたい。

Temporal Emsembling

  • 論文は前節と同じ

  • Temporal emsemblingはzを指数平滑化する。

  • また、立ち上がりを補正するため、学習の初期段階では1-α^tで除算する。

Mean Teacher

SNTG: Smooth Neighbors on Teacher Graphs

  • ΠモデルやMean Teacherは、その推論結果の予測ラベルが異なる場合にも、差を縮めようとするのでよくない。

  • そこで同じラベルの場合は、低次元特徴量 l_i, l_jのユークリッド距離が小さくなるよう制御し、

  • そこで異なるラベルの場合は、低次元特徴量 l_i, l_jのユークリッド距離が大きくよう制御する。(ただし上限はm_eで制御する)

AMC: Angular Margin Contrastive

  • SNTGのユークリッド距離を、geodesic metric defined for unit-normalized latent representationsにした。

  • geodesic metricは測地線と訳され、曲面上の距離っぽい?unit-normalized latent representationsはよくわからない。

  • Grad-CAMの解釈なども最適になるらしい。

  • z_i, z_jは最終層出力かな? ⇒ 違うみたい。これがunit-normalized latent representationsのようだ。

unit-normalized latent representationsは以下の正規化で、x_iは一番深い層の特徴量である。

Last updated