文献
J-GLOBAL ID:202002242170439397   整理番号:20A2218658

Telugu放送ニュースの言語モデリングおよび転写のための教師なし幹付きテキストコーパス【JST・京大機械翻訳】

Unsupervised stemmed text corpus for language modeling and transcription of Telugu broadcast news
著者 (3件):
資料名:
巻: 23  号:ページ: 695-704  発行年: 2020年 
JST資料番号: W4490A  ISSN: 1381-2416  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: ドイツ (DEU)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
インド語では,根語は,テンセ,数,および/または性に関して,文脈に適合するために,組み合わせまたは修正されるであろう。したがって,多くのヨーロッパ言語と比較して,独特の単語の数は増加する。言語モデリングのために使用されたテキストコーパスのサイズが,全ての可能なインフレクト単語を含まなかった。訓練データではなく試験中に発生する単語は,Vocabulary(OOV)単語のアウトと呼ばれる。同様に,テキストコーパスは,単語のすべての可能な配列を持たない。したがって,このデータスパース性のために,自動音声認識システム(ASR)は,テキストコーパスのサイズの言語モデル/不展望においてすべての単語を収容しないかもしれない。また,データの容積が根語への形態的変化により指数的に増加するならば,それは計算的に挑戦的になる。言語モデルにおけるOOVを減らすために,Hindiのために提案された方法に基づいて,1つのインド語,Telguguのために,新しい教師なしステーミング法を提案した。平滑化および補間のような技法を用いたTelguの言語モデリングにおける他の課題も,教師つきおよび教師なしのステーミングデータと共に解析した。平滑化技法Witten-BellおよびKneser-Neyは,教師つき学習による前処理データに対して,他の技術と比較して良好に機能することが観察された。ASRs精度は,それぞれ,教師つきと教師なしのステーミングで0.76%と0.94%改善された。Copyright Springer Science+Business Media, LLC, part of Springer Nature 2020 Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識 

前のページに戻る