文献
J-GLOBAL ID:201702214270875834   整理番号:17A0690439

日本語Twitter文書を対象とした系列ラベリングによる表記正規化

著者 (3件):
資料名:
巻: 2017  号: SLP-116  ページ: Vol.2017-SLP-116,No.12,1-6 (WEB ONLY)  発行年: 2017年05月08日 
JST資料番号: U0451A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本研究では,Twitter上で見られる口語的表現やタイピングミス等による一般的でない表記(以下「崩れた表記」と呼ぶ)による形態素解析精度低下を改善するためのアプローチとして,崩れた表記の正規化を試みる。英語のようなスペース区切りの言語の正規化では単語単位で崩れた表現を置き換える手法が考えられるが,日本語のようなわかち書きが必要な言語では,処理対象に崩れた表記が含まれることで単語境界の検出に誤りが生じ,未知語が多く出現するため,単語情報が利用しづらく,単語単位での置き換えは適さない。また,Twitter文書から作られた大規模なアノテーションデータは入手が困難であるため,大量の教師データを必要とするシステムを使ってこの問題を解くことは難しい。そこで,本研究では文字単位の系列ラベリング問題として正規化を解く。系列ラベリング問題として正規化だけを解くことで,形態素解析と表記正規化を同時に学習するような手法に比べ小規模のデータでの学習が可能になる。また,正規化された表記が付与された実際のTwitter文書のデータを使って学習,実験を行い,Twitter文書を対象とするのに適した正規化を学習できることを示す。そうして正規化処理を施した文書と,正規化前の文書,人手で正規化を施した文書を形態素解析にかけて比較し,崩れた表記やその正規化結果が形態素解析の精度に与える影響を分析する。(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
自然語処理 
引用文献 (15件):

前のページに戻る