Google Research
相変わらず先進的。
一応、AutoBoundとしてライブラリを公開しているらしい。
既存手法としてTransformer系のFEDformerやPatchTSTを例にしている
TiDEはシンプルなMLPアーキテクチャがベースのEncoder-Decoderモデルとなっている
入力として過去の出力yやAttributes、特徴量xから構成される
これらはGoogle CloudのVertex AutoML Forecastingで近々利用できるようになる予定
探索すべきモデル候補の数が1桁減少し、計算量や最終的な性能がより良いモデルアーキテクチャを発見することが可能
視覚言語基盤モデルは、一般的にはCLIPなどに代表される対照学習と次トークン予測の2つの主要なシナリオが一般的
前者と後者で得意な下流タスクがことなるため課題
MaMMUTはこれを解決するアーキテクチャとなっており、更に先行研究よりも多くの画像フレームを扱えるため、動画処理にもメリットがある
要するにImage側のエンコーダ結果をテキスト側のデコーダのCross Attentionとして使うところがポイントっぽい
カテゴリを限定しない物体検出器という感じで、カテゴリ名をText Encoderで埋め込む
分類用のヘッドは学習対象する
Vision EncoderとText EncoderはFrozenでやる
SAMの物体検出版?というわけではなさそうだが、汎用性は高そう
PaLM2意外の研究内容についても触れられている
個人的にはChirpという音声認識を把握してなかった、まだプレビューだがWhisperとの比較をしたい。
人間がどの領域に注目しているか予測するモデルの研究らしい
注意を乱すものを抑制することもできるらしい
Last updated