Telugu放送ニュースの言語モデリングおよび転写のための教師なし幹付きテキストコーパス【JST・京大機械翻訳】

Pala Mythilisharan; Parayitam Laxminarayana; Appala Venkataramana

文献

J-GLOBAL ID：202002242170439397 整理番号：20A2218658

Telugu放送ニュースの言語モデリングおよび転写のための教師なし幹付きテキストコーパス【JST・京大機械翻訳】

Unsupervised stemmed text corpus for language modeling and transcription of Telugu broadcast news

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A2218658&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A2218658&from=J-GLOBAL&jstjournalNo=W4490A") }}

著者 (3件)： , ,
資料名：
巻： 23 号： 3 ページ： 695-704 発行年： 2020年
JST資料番号： W4490A ISSN： 1381-2416 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：ドイツ (DEU) 言語：英語 (EN)

インド語では,根語は,テンセ,数,および/または性に関して,文脈に適合するために,組み合わせまたは修正されるであろう。したがって,多くのヨーロッパ言語と比較して,独特の単語の数は増加する。言語モデリングのために使用されたテキストコーパスのサイズが,全ての可能なインフレクト単語を含まなかった。訓練データではなく試験中に発生する単語は,Vocabulary(OOV)単語のアウトと呼ばれる。同様に,テキストコーパスは,単語のすべての可能な配列を持たない。したがって,このデータスパース性のために,自動音声認識システム(ASR)は,テキストコーパスのサイズの言語モデル/不展望においてすべての単語を収容しないかもしれない。また,データの容積が根語への形態的変化により指数的に増加するならば,それは計算的に挑戦的になる。言語モデルにおけるOOVを減らすために,Hindiのために提案された方法に基づいて,1つのインド語,Telguguのために,新しい教師なしステーミング法を提案した。平滑化および補間のような技法を用いたTelguの言語モデリングにおける他の課題も,教師つきおよび教師なしのステーミングデータと共に解析した。平滑化技法Witten-BellおよびKneser-Neyは,教師つき学習による前処理データに対して,他の技術と比較して良好に機能することが観察された。ASRs精度は,それぞれ,教師つきと教師なしのステーミングで0.76%と0.94%改善された。Copyright Springer Science+Business Media, LLC, part of Springer Nature 2020 Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , ,
, , , , 【Automatic Indexing@JST】

著者キーワード (4件)： , , ,

パターン認識

, , , , , ,

前のページに戻る