文献
J-GLOBAL ID:201702279593499179   整理番号:17A0679381

語節パターンを用いた韓国語文章の著者識別

Authorship Attribution of Korean Texts by Using Phrase Patterns
著者 (3件):
資料名:
巻: 20  号: 1(B)  ページ: 417-428  発行年: 2017年01月 
JST資料番号: L7416A  ISSN: 1343-4500  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
機械学習による文章の著者識別の主なプロセスは,コーパスから何らかの特徴量を抽出し,適切な分類器で識別・分類をおこなうことである。著者識別に用いられる特徴量は単語の長さ,文の長さ,品詞の頻度などを始め,記号論や形態論に基づいた文字・記号のn-gram,形態素・タグのn-gramなどが多く用いられている。金(2013)は構文論の視点から「文節パターン」を書き手の特徴量として提案し,それを用いて日本語(文学作品,学生の作文,一般人が書いた日記)の書き手を識別する実証研究を行い,その有効性について報告した。日本語の「文節」は韓国語の「語節」に相当する。しかし,韓国語における「語節パターン」に関する研究は見当たらない。本稿では韓国語と日本語の文法構造に共通点があるところに着目し,韓国語文章の著者識別における「語節パターン」の有効性を確認するため,4人の新聞論説,10人のエッセイコーパスの5種類の特徴量(文字,語節,タグ,形態素,語節パターン)について,5種類の分類器(AdaBoost,HDDA,LMT,RF,SVM)を用いて比較分析を行った。その結果,語節のパターンを用いた著者識別率とそれ以外の特徴量(非パターン特徴量)を用いた4つの分類器(AdaBoost,LMT,RF)の結果のt-検定では有意差が見られなかった。ただし,SVMでは語節のパターンが非パターンより高い正解率を示した。このような結果から,韓国語の著者識別に語節パターン特徴量が有効であることが確認された。また,分類器の識別結果は,韓国語においてもRFを用いた正解率が最も高かった。また,LMTの識別率についてはSVMより高い正解率が得られた。(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
自然語処理  ,  人工知能 
引用文献 (20件):
  • Choe, J.-W., Shudo, S. and Harada, Y. (2012). A contrastive study on the adnominal constructions in Japanese and Korean-relative frequency of '-no' vs. '-ui' Information and Communication Engineers 111(320): 61-66.
  • Fernández-Delgado, M., Cernadas, E., Barro, S. and Amorim, D. (2014). Do we need hundreds of classifiers to solve real world classification problems?, The Journal of Machine Learning Research 15(1): 3133-3181.
  • Han, N.-R. (2009). Authorship attribution in Korean using frequency profiles, Korean Journal of Cognitive Science 20(2): 225-241.
  • Jin, M. and Huh, M.-H. (2012). Author identification of Korean texts by minimum distance and machine learning., survery research 13(3): 175-190.
  • Jin, M. and Murakami, M. (1993). Authors' characteristic writing styles as seen through their use of commas, Behaviormetrika 20(1): 63-76.
もっと見る
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る