テキストの特徴とHTML構造を利用したWeb文書の読みやすさ評価方法

山崎高弘; 常盤欣一朗

文献

J-GLOBAL ID：201302233910947337 整理番号：13A0012239

テキストの特徴とHTML構造を利用したWeb文書の読みやすさ評価方法

A Method of Readability Assessment for Web Documents Using Text Features and HTML Structures

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=13A0012239&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=13A0012239&from=J-GLOBAL&jstjournalNo=S0810A") }}

著者 (2件)： ,
資料名：
巻： 132 号： 9 ページ： 1524-1532 (J-STAGE) 発行年： 2012年
JST資料番号： S0810A ISSN： 0385-4221 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

著者らは,テキストの読みやすさに基づいた評価手法について研究し,日本語テキストを対象とした自動分類システムの構築を目標としている。ここでの「読みやすさ」とは,テキスト内容や語句の難易度レベルだけで決まるものではなく,見た目や文の構造・論理構成で決まるものとする。すなわち,テキスト構造の複雑さを評価基準とする。精度の高い判定結果を得るためには,テキストの特徴を反映した素性を取り出すことが必要である。これまでに,日本語論文を対象とし,文書の見た目および係り受け構造から読みやすさを判定する方法を提案している。本研究では,Web文書を対象として,文書分類を利用した難易度評価手法を拡張し,文字の出現頻度だけではなく他の特徴を導入することで,テキストの読みやすさに応じた判定を実現する。Web文書は,生のテキストデータとテキストの構造・見た目を制御する付加情報から構成されている。これら二つの構成要素から読みやすさに関わる要因を調査し,特徴を抽出する手法を提案した。まず,テキストそのものの特徴として,表層的特徴,文の構造的特徴,論理の流れとしている。それぞれの要因から特徴を抽出することで,テキストの読みやすさに応じた特徴ベクトルとした。また,HTML構造においてHTMLタグと論理構造に着目し,読みやすさの要因として,特徴抽出を行った。これらの特徴ベクトルから機械学習によって,未知のWeb文言を読みやすさに基づいて分類するシステムを提案した。そして,情報分類の精度評価で用いられるRMSE(平均2乗平方根誤差)を基準とした評価実験により,本システムが単語の出現頻度を特徴ベクトルとした場合よりも,より精度の高い分類が可能になることを確認した。これにより,本論文で提案したWeb文書からの読みやすさに関する特徴抽出の有効性を示すことができた。

, , , , ,
, ,

自然語処理

引用文献 (10件)：

(1) 山中翔太・山崎高弘・常盤欣一朗・長谷川哲子:「構文解析を用いた日本語論文の読みやすさ判定法」,第8回情報科学技術フォーラム講演論文集 E-011 (2009)
(2) R. Flesch: “A new readability yardstick”, Journal of Applied Psychology, Vol. 32, No. 3, pp. 221-233 (1948)
(3) 建石由佳・小野芳彦・山田尚勇:「日本文の読みやすさの評価式」,文書処理とヒューマンインターフェース,Vol. 18, No. 1, pp. 1-8 (1988)
(4) 柴崎秀子・玉岡賀津雄:「国語科教科書を基にした小・中学校の文章難易学年判定式の構築」,日本教育工学会論文誌,Vol. 33, No. 4, pp. 449-458 (2010)
(5) S. Sato, S. Matsuyoshi, and Y. Kondoh: “Automatic Assessment of Japanese Text Readability Based on a Textbook Corpus”, Proc. 6th International Language Resources and Evaluation (2008)

, , ,

前のページに戻る