語節パターンを用いた韓国語文章の著者識別

LEE Jongchan; CHOE Jae-Woong; JIN Mingzhe

文献

J-GLOBAL ID：201702279593499179 整理番号：17A0679381

語節パターンを用いた韓国語文章の著者識別

Authorship Attribution of Korean Texts by Using Phrase Patterns

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A0679381&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A0679381&from=J-GLOBAL&jstjournalNo=L7416A") }}

著者 (3件)： , ,
資料名：
巻： 20 号： 1(B) ページ： 417-428 発行年： 2017年01月
JST資料番号： L7416A ISSN： 1343-4500 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

機械学習による文章の著者識別の主なプロセスは,コーパスから何らかの特徴量を抽出し,適切な分類器で識別・分類をおこなうことである。著者識別に用いられる特徴量は単語の長さ,文の長さ,品詞の頻度などを始め,記号論や形態論に基づいた文字・記号のn-gram,形態素・タグのn-gramなどが多く用いられている。金(2013)は構文論の視点から「文節パターン」を書き手の特徴量として提案し,それを用いて日本語(文学作品,学生の作文,一般人が書いた日記)の書き手を識別する実証研究を行い,その有効性について報告した。日本語の「文節」は韓国語の「語節」に相当する。しかし,韓国語における「語節パターン」に関する研究は見当たらない。本稿では韓国語と日本語の文法構造に共通点があるところに着目し,韓国語文章の著者識別における「語節パターン」の有効性を確認するため,4人の新聞論説,10人のエッセイコーパスの5種類の特徴量(文字,語節,タグ,形態素,語節パターン)について,5種類の分類器(AdaBoost,HDDA,LMT,RF,SVM)を用いて比較分析を行った。その結果,語節のパターンを用いた著者識別率とそれ以外の特徴量(非パターン特徴量)を用いた4つの分類器(AdaBoost,LMT,RF)の結果のt-検定では有意差が見られなかった。ただし,SVMでは語節のパターンが非パターンより高い正解率を示した。このような結果から,韓国語の著者識別に語節パターン特徴量が有効であることが確認された。また,分類器の識別結果は,韓国語においてもRFを用いた正解率が最も高かった。また,LMTの識別率についてはSVMより高い正解率が得られた。(著者抄録)

, , , , , , , ,
, , , , ,

自然語処理 , 人工知能

引用文献 (20件)：

Choe, J.-W., Shudo, S. and Harada, Y. (2012). A contrastive study on the adnominal constructions in Japanese and Korean-relative frequency of '-no' vs. '-ui' Information and Communication Engineers 111(320): 61-66.
Fernández-Delgado, M., Cernadas, E., Barro, S. and Amorim, D. (2014). Do we need hundreds of classifiers to solve real world classification problems?, The Journal of Machine Learning Research 15(1): 3133-3181.
Han, N.-R. (2009). Authorship attribution in Korean using frequency profiles, Korean Journal of Cognitive Science 20(2): 225-241.
Jin, M. and Huh, M.-H. (2012). Author identification of Korean texts by minimum distance and machine learning., survery research 13(3): 175-190.
Jin, M. and Murakami, M. (1993). Authors' characteristic writing styles as seen through their use of commas, Behaviormetrika 20(1): 63-76.

, , ,

前のページに戻る