音声の教師なしセグメンテーションおよびクラスタリングのための埋め込まれた段階的K平均モデル【Powered by NICT】

Kamper Herman; Livescu Karen; Goldwater Sharon

文献

J-GLOBAL ID：201802241302378556 整理番号：18A0441129

音声の教師なしセグメンテーションおよびクラスタリングのための埋め込まれた段階的K平均モデル【Powered by NICT】

An embedded segmental K-means model for unsupervised segmentation and clustering of speech

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=18A0441129&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=18A0441129&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (3件)： , ,
資料名：
巻： 2017 号： ASRU ページ： 719-726 発行年： 2017年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ラベルなし音声の教師なしセグメンテーションおよびクラスタリングは零資源音声処理におけるコア問題である。手法の大部分は,方法論的極値である:いくつかは収束保証を伴う確率的Bayesモデルを用い,一方,他のものはより効率的な発見的技術の選択。以前の研究で比肩可能な性能にもかかわらず,完全Bayes手法である大規模音声コーパスにスケールすることは困難である。はまだ明確な目的関数を持つがハードクラスタリングとセグメンテーションよりもむしろ完全Bayes推論を用いて効率を改善することを最近のBayesモデルに近似を導入した。Bayes対応物のように,この埋込み段階的K平均モデル(ES KMeans)は,固定次元音響単語埋込みとして任意長単語セグメントを示した。最初の共通英語とXitsongaデータセット(5時間および2.5時間音声)に関する以前のアプローチとESのKmeansを比較した:ES Kmeansは単語分割の主要発見的方法よりも優れており,ハイパーパラメータの少ない5倍速いが,Bayesモデルに類似したスコアを与えた。しかし,そのクラスタは他のモデルよりも純粋であった。ES Kmeansは零資源音声挑戦2017(45時間まで)の5言語にそれを適用することによってより大きなコーパスにスケールすることを示し,それは挑戦ベースラインと比較して競合する。~1Copyright 2018 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】

, , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

人工知能

, , , , , ,

前のページに戻る