文献
J-GLOBAL ID:202102234911881744   整理番号:21A1194391

放送オーディオコンテンツにおける音声言語検出と分類の研究【JST・京大機械翻訳】

Investigation of Spoken-Language Detection and Classification in Broadcasted Audio Content
著者 (4件):
資料名:
巻: 11  号:ページ: 211  発行年: 2020年 
JST資料番号: U7203A  ISSN: 2078-2489  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: スイス (CHE)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,音声放送コンテンツにおける音声言語分類の調査に焦点を当てた。この手法は,半自動索引付け/文書化が展開され,提案した言語検出前処理により促進される,現代メディア/監視組織に遭遇する,実語シナリオを反映する。特定の無線ストリームの多言語オーディオ記録を,一般的言語認識モデルに対してこのステップを追求することなく,適応分類実験に用いる小さなデータセットに形成した。特に,階層的識別スキームを,音声言語を分類する前に音声信号を分離するために追跡した。この仮説の妥当性をテストするために,様々な窓構成において,監督および教師なし機械学習を利用した。達成された認識スコア(部分的および全体的)の解析に加えて,新しいオーディオ記録の半自動アノテーションのために,後期統合モデルを提案した。したがって,Generic Audio言語分類リポジトリを徐々に定式化することを目的として,データ増強機構を提供した。このデータベースは,自己索引メタデータ機構の他に,深い学習のような最先端の技法を通して,将来における一般的な言語分類モデルを容易にすることができるプログラム適応収集を構成する。この手法は,プロジェクトの研究開始と合致し,それは,全体結果を配送する目的で,より大きなデータセットおよび/または既に事前訓練されたモデルを有する第2段階で適用可能な指標を追求する。Copyright 2021 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
著者キーワード (3件):
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  自然語処理 
引用文献 (46件):
  • Kotsakis, R.; Kalliris, G.; Dimoulas, C. Investigation of broadcast-audio semantic analysis scenarios employing radio-programme-adaptive pattern classification. Speech Commun. 2012, 54, 743-762.
  • Kotsakis, R.; Kalliris, G.; Dimoulas, C. Investigation of salient audio-features for pattern-based semantic content analysis of radio productions. In Proceedings of the 132nd AES Convention, Budapest, Hungary, 26-29 April 2012; pp. 513-520.
  • Kotsakis, R.G.; Dimoulas, C.A.; Kalliris, G.M. Contribution of Stereo Information to Feature-Based Pattern Classification for Audio Semantic Analysis. In Proceedings of the 2012 Seventh International Workshop on Semantic and Social Media Adaptation and Personalization, Luxembourg, 3-4 December 2012; pp. 68-72.
  • Vrysis, L.; Tsipas, N.; Thoidis, I.; Dimoulas, C. 1D/2D Deep CNNs vs. Temporal Feature Integration for General Audio Classification. J. Audio Eng. Soc. 2020, 68, 66-77.
  • Thoidis, I.; Vrysis, L.; Pastiadis, K.; Markou, K.; Papanikolaou, G. Investigation of an Encoder-Decoder LSTM model on the enhancement of speech intelligibility in noise for hearing-impaired listeners. In Audio Engineering Society Convention 146; Audio Engineering Society: New York, NY, USA, 2019.
もっと見る

前のページに戻る