Google Research

  • 相変わらず先進的。

  • 一応、AutoBoundとしてライブラリを公開しているらしい。

  • 既存手法としてTransformer系のFEDformerやPatchTSTを例にしている

  • TiDEはシンプルなMLPアーキテクチャがベースのEncoder-Decoderモデルとなっている

  • 入力として過去の出力yやAttributes、特徴量xから構成される

  • これらはGoogle CloudのVertex AutoML Forecastingで近々利用できるようになる予定

  • 探索すべきモデル候補の数が1桁減少し、計算量や最終的な性能がより良いモデルアーキテクチャを発見することが可能

  • 視覚言語基盤モデルは、一般的にはCLIPなどに代表される対照学習と次トークン予測の2つの主要なシナリオが一般的

  • 前者と後者で得意な下流タスクがことなるため課題

  • MaMMUTはこれを解決するアーキテクチャとなっており、更に先行研究よりも多くの画像フレームを扱えるため、動画処理にもメリットがある

  • 要するにImage側のエンコーダ結果をテキスト側のデコーダのCross Attentionとして使うところがポイントっぽい

  • カテゴリを限定しない物体検出器という感じで、カテゴリ名をText Encoderで埋め込む

  • 分類用のヘッドは学習対象する

  • Vision EncoderとText EncoderはFrozenでやる

  • SAMの物体検出版?というわけではなさそうだが、汎用性は高そう

  • 人間がどの領域に注目しているか予測するモデルの研究らしい

  • 注意を乱すものを抑制することもできるらしい

Last updated