抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ビデオにおけるインスタンスセグメンテーションのための既存の方法は,通常,トラッキングバイ検出パラダイムに従う多段パイプラインを含み,画像列としてビデオクリップをモデル化する。多重ネットワークを用いて,個々のフレームにおけるオブジェクトを検出し,次にこれらの検出を時間にわたって関連させた。したがって,これらの方法は,しばしば非エンドツーエンド訓練可能で,特定のタスクに高度に調整される。本論文では,ビデオにおけるインスタンスセグメンテーションを含むさまざまなタスクにうまく適合した異なるアプローチを提案した。特に,単一3D空間時間体積としてビデオクリップをモデル化し,単一段階で空間と時間にわたってインスタンスを分割し,追跡する新しい方法を提案した。この問題定式化は,全ビデオクリップ上の特定のオブジェクトインスタンスに属する画素をクラスタ化するために訓練された時空間埋込みのアイデアの周りに中心を置く。この目的のために,(i)時空間埋込みの特徴表現を強化する新しい混合関数,および(ii)時間コンテキストを理由とする単一段階,提案フリーネットワーク,を導入した。このネットワークを,これらの埋込みをクラスタ化するのに必要なパラメータだけでなく,空間-時間埋込みを学習するためにエンドツーエンドに訓練し,推論を単純化する。提案手法は,複数のデータセットとタスクを横断して最先端の結果を達成する。コードとモデルはhttps://github.com/sabarim/STEm Segで利用可能である。【JST・京大機械翻訳】