プレプリント
J-GLOBAL ID:202202220509861476   整理番号:22P0334035

連続手話認識のための多視点時空間ネットワーク【JST・京大機械翻訳】

Multi-View Spatial-Temporal Network for Continuous Sign Language Recognition
著者 (2件):
資料名:
発行年: 2022年04月19日  プレプリントサーバーでの情報更新日: 2022年04月19日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
サイン言語は美しい視覚言語であり,また,発話と聴覚障害者によって使用される一次言語である。しかしながら,サイン言語は多くの複雑な表現を持ち,それは公衆が理解し,マスターするのが難しい。サイン言語認識アルゴリズムは,聴覚障害者と正常者の間のコミュニケーションを著しく促進するであろう。伝統的連続符号言語認識は,しばしば畳込みニューラルネットワーク(CNN)とLong Short-Term記憶ネットワーク(LSTM)に基づくシーケンス学習方式を使用する。これらの方法は,空間的および時間的特徴を別々に学習することができ,符号言語の複雑な空間時間特徴を学習できない。LSTMは長期依存性を学ぶことも難しい。これらの問題を軽減するために,本論文はマルチビュー空間時間連続サイン言語認識ネットワークを提案する。ネットワークは3つの部分から成る。第1部は,RGBと骨格データの空間-時間特徴を直接抽出できるマルチビュー空間-一時的特徴抽出ネットワーク(MSTN)である。第2は,変換器に基づくサイン言語符号器ネットワークであり,それは長期依存性を学ぶことができる。第3は,連続符号言語の全意味を予測するために用いられる,結合者時間分類(CTC)復号器ネットワークである。提案アルゴリズムを,2つの公開サイン言語データセットSLR-100とPHOENIX-Weaher2014T(RWTH)で試験した。その結果,著者らの方法は両方のデータセットにおいて優れた性能を達成した。SLR-100データセットの単語誤り率は1.9%であり,RWTHPHOENIX-Weaherデータセットの単語誤り率は22.8%であった。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  自然語処理 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る