抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
機械学習による文章の著者識別の主なプロセスは,コーパスから何らかの特徴量を抽出し,適切な分類器で識別・分類をおこなうことである。著者識別に用いられる特徴量は単語の長さ,文の長さ,品詞の頻度などを始め,記号論や形態論に基づいた文字・記号のn-gram,形態素・タグのn-gramなどが多く用いられている。金(2013)は構文論の視点から「文節パターン」を書き手の特徴量として提案し,それを用いて日本語(文学作品,学生の作文,一般人が書いた日記)の書き手を識別する実証研究を行い,その有効性について報告した。日本語の「文節」は韓国語の「語節」に相当する。しかし,韓国語における「語節パターン」に関する研究は見当たらない。本稿では韓国語と日本語の文法構造に共通点があるところに着目し,韓国語文章の著者識別における「語節パターン」の有効性を確認するため,4人の新聞論説,10人のエッセイコーパスの5種類の特徴量(文字,語節,タグ,形態素,語節パターン)について,5種類の分類器(AdaBoost,HDDA,LMT,RF,SVM)を用いて比較分析を行った。その結果,語節のパターンを用いた著者識別率とそれ以外の特徴量(非パターン特徴量)を用いた4つの分類器(AdaBoost,LMT,RF)の結果のt-検定では有意差が見られなかった。ただし,SVMでは語節のパターンが非パターンより高い正解率を示した。このような結果から,韓国語の著者識別に語節パターン特徴量が有効であることが確認された。また,分類器の識別結果は,韓国語においてもRFを用いた正解率が最も高かった。また,LMTの識別率についてはSVMより高い正解率が得られた。(著者抄録)