プレプリント
J-GLOBAL ID:202202220483888907   整理番号:22P0279157

Razmecheno:日記「Prozhito」のディジタルアーカイブからの名前付きエンティティ認識【JST・京大機械翻訳】

Razmecheno: Named Entity Recognition from Digital Archive of Diaries "Prozhito"
著者 (8件):
資料名:
発行年: 2022年01月24日  プレプリントサーバーでの情報更新日: 2022年01月24日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
Named Entity認識(NER)のための既存のデータセットの大部分は,歴史的およびリテラリーテキストから作成した少数の例外で,ニュース,研究論文およびWikipediaに主として構築されている。さらに,英語は,さらなるラベリングのためのデータのための主要な源である。本論文は,ロシアにおけるプロジェクト「Prozhito」の日記テキストから集められた新しいデータセット「Razmecheno」を作成することにより,複数のギャップを埋めることを目指した。著者らのデータセットは,複数の研究ライン,即ち,ダイヤテキストのリテラリー研究,他のドメインからの転送学習,低資源または交差言語,エンティティ認識という関心がある。Razmechenoは,1331の文と14119のトークンから成り,ペレストロカで書かれた日記からサンプリングされた。注釈スキーマは,5つの一般的に使用されるエンティティタグ:人,特性,位置,組織,および施設から成る。ラベリングは,Yandexからのクラウドソーシングプラットフォームに関して実行した。2つのステージでトロカ。最初に,労働者は特定のタイプの実体を含む文章を選択した。第二に,それらは実体スパンをマークした。その結果,1113の実体を得た。Razmechenoの経験的評価を,オフ-市販NERツールおよび微調整前訓練文脈化符号器により行った。オープンアクセスのために注釈付きデータセットを解放した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  人工知能 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る