文献
J-GLOBAL ID:202002241153670713   整理番号:20A2472173

大規模全体的ビデオ理解【JST・京大機械翻訳】

Large Scale Holistic Video Understanding
著者 (14件):
資料名:
巻: 12350  ページ: 593-610  発行年: 2020年 
JST資料番号: H0078D  ISSN: 0302-9743  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: ドイツ (DEU)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ビデオ認識は,豊富な注釈を持つベンチマークによって近年進行している。しかしながら,研究は,まだ,高度に特異的なビデオ理解タスクに関する人間行動またはスポーツ認識に限定され,従って,ビデオの全体コンテンツを記述するための重要なギャップを残す。このギャップを,大規模”Holistic Visual Dataset”(HVU)の提示により埋める。HVUは,動的場面における複数の意味的側面の認識を含む包括的問題としてマルチラベルおよびマルチタスクビデオ理解に焦点を合わせる意味分類において階層的に組織化される。HVUは,訓練,検証および試験セットに対して,3142のラベルにわたって,9百万の注釈で,約572kのビデオを含む。HVUは,実世界シナリオを自然に捉えるシーン,オブジェクト,行動,イベント,属性および概念のカテゴリーで定義される意味的側面を含む。3つの挑戦的なタスクに対するHVUの一般化能力を実証した。1)ビデオ分類,2)ビデオキャプテーション,3)ビデオクラスタリングタスク。特にビデオ分類のために,著者らは,外見と時間手がかりの中間表現を結合することによって,2Dと3Dアーキテクチャを1つに融合する”Holistic Appearanceと時間ネットワーク”(HATNet)と呼ばれる新しい時空間深層ニューラルネットワークアーキテクチャを導入した。HATNetはマルチラベルとマルチタスク学習問題に焦点を当て,エンドツーエンド方式で訓練する。実験により,全体的表現学習が相補的であり,多くの実世界アプリケーションを可能にする上で重要な役割を果たすという考えを検証した。Copyright Springer Nature Switzerland AG 2020 Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般  ,  パターン認識 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る