プレプリント
J-GLOBAL ID:202202202270074720   整理番号:22P0190681

3つの低リソース言語のためのデータ集合および深層学習ベースライン名前付きエンティティ認識器の開発:Bhojpuri,MaithiliおよびMagahi【JST・京大機械翻訳】

Development of a Dataset and a Deep Learning Baseline Named Entity Recognizer for Three Low Resource Languages: Bhojpuri, Maithili and Magahi
著者 (8件):
資料名:
発行年: 2020年09月14日  プレプリントサーバーでの情報更新日: 2020年09月14日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
自然言語処理(NLP)パイプラインにおいて,Named Entity Recoction(NER)は,適切な名詞と位置,Persson,組織,疾病などをマークする他の名目をマークする予備問題の1つである。NERモジュールのないそのようなエンティティは,機械翻訳システムの性能に悪影響を与える。NERは,情報抽出システムにも有用であるが,そのようなエンティティを別々に認識し,処理することによってこの問題を克服するのを助ける。Bhojpuri,MaithiliおよびMagnahiは,通常,Purvanchal言語として知られている低資源言語である。本論文では,これらの言語からHindiへ変換するために開発された機械翻訳システムに対するNERベンチマークデータセットの開発を,それらの利用可能なコーパスの注釈付け部分によって焦点を当てた。サイズ228373,157468および56190トークンのBhojpuri,MaithiliおよびMagnahiコーパスを,22のエンティティラベルを用いて注釈付けした。アノテーションは,Hindi NERデータセットの1つで使用されるタグレットが続く粗粒アノテーションラベルを考慮した。また,LSTM-CNNs-CRFモデルを使用する深層学習ベースベースラインも報告した。条件付確率場モデルを用いて得たNERツールからのより低いベースラインF1スコアは,Bhojpuriで96.73,Maithiliで93.33,Magnahiで95.04であった。深層学習ベース技術(LSTM-CNNs-CRF)は,Bhojpuriで96.25,Maithiliで93.33,Magahiで95.44を達成した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  自然語処理 

前のページに戻る