EfficientDet

概要

物体検出の精度は飛躍的に向上しているものの計算コストがとても高い
- NAS-FPN
  - 167M Parameters
  - 3045B FLOPs(RetinaNetの30倍)
効率的なモデルとして、1stageモデルやアンカーレス方式があるが、精度が犠牲になっている。
効率的なアーキテクチャを検討するため、以下２点の課題設定をした。
課題1: multi-scaleな特徴量マップの融合方法
- FPNが通常用いられ、PANet, NAS-FPNと進化した。
- しかし最終結果に対する寄与は不均衡であることがわかっている。
- これに対してtop-downとbottom-upのmulti-scale特徴量を融合を繰り返しながら、異なる入力特徴量の重要度の重みを導入したBiFPNを提案する。
課題2: モデル全体のスケーリング
- 物体検知モデルは、backboneの規模拡大やより大きな入力画像により性能向上する傾向にある。
- しかしその後段のネットワーク部分は同じ規模のものを使っていた。
  - 後段の特徴量ネットワーク
  - その後のbounding box回帰、クラス予測のネットワーク
- これらは、EfficientNet同様、同時にスケールした方が最も効果が高いはずである。
- すべてを共同でスケールアップする複合スケールアップを提案する。

BiFPNと比較ため、FPN以降の主要なネットワークの比較図が以下である。
- NAS-FPNについて補足
  - 高性能であるが、NAS(Neural architecture search)で自動で選択されるため解釈が難しい。
  - 加えて最適な接続を見つけるためにかなりの学習が必要。
  - 完成物は、PANetよりは高速

BiFPNはこのblockをrepeatすることで、スケールする。
BiFPNの接続は、P6を例にとると以下のような計算式となる。
- 融合時はどこの入力を優先するかを選択するような形式を意図している。
- 本来は、softmax-based fusionで融合したかったが計算が低速になる。
- そこでsoftmax-based fusionを模擬したFast normalized fusionという以下の式を用いている。
- εは0.0001とし、数値的不安定性を避けるための処理である。