文献
J-GLOBAL ID:201302233910947337   整理番号:13A0012239

テキストの特徴とHTML構造を利用したWeb文書の読みやすさ評価方法

A Method of Readability Assessment for Web Documents Using Text Features and HTML Structures
著者 (2件):
資料名:
巻: 132  号:ページ: 1524-1532 (J-STAGE)  発行年: 2012年 
JST資料番号: S0810A  ISSN: 0385-4221  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
著者らは,テキストの読みやすさに基づいた評価手法について研究し,日本語テキストを対象とした自動分類システムの構築を目標としている。ここでの「読みやすさ」とは,テキスト内容や語句の難易度レベルだけで決まるものではなく,見た目や文の構造・論理構成で決まるものとする。すなわち,テキスト構造の複雑さを評価基準とする。精度の高い判定結果を得るためには,テキストの特徴を反映した素性を取り出すことが必要である。これまでに,日本語論文を対象とし,文書の見た目および係り受け構造から読みやすさを判定する方法を提案している。本研究では,Web文書を対象として,文書分類を利用した難易度評価手法を拡張し,文字の出現頻度だけではなく他の特徴を導入することで,テキストの読みやすさに応じた判定を実現する。Web文書は,生のテキストデータとテキストの構造・見た目を制御する付加情報から構成されている。これら二つの構成要素から読みやすさに関わる要因を調査し,特徴を抽出する手法を提案した。まず,テキストそのものの特徴として,表層的特徴,文の構造的特徴,論理の流れとしている。それぞれの要因から特徴を抽出することで,テキストの読みやすさに応じた特徴ベクトルとした。また,HTML構造においてHTMLタグと論理構造に着目し,読みやすさの要因として,特徴抽出を行った。これらの特徴ベクトルから機械学習によって,未知のWeb文言を読みやすさに基づいて分類するシステムを提案した。そして,情報分類の精度評価で用いられるRMSE(平均2乗平方根誤差)を基準とした評価実験により,本システムが単語の出現頻度を特徴ベクトルとした場合よりも,より精度の高い分類が可能になることを確認した。これにより,本論文で提案したWeb文書からの読みやすさに関する特徴抽出の有効性を示すことができた。
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
自然語処理 
引用文献 (10件):
  • (1) 山中翔太・山崎高弘・常盤欣一朗・長谷川哲子:「構文解析を用いた日本語論文の読みやすさ判定法」,第8回情報科学技術フォーラム講演論文集 E-011 (2009)
  • (2) R. Flesch: “A new readability yardstick”, Journal of Applied Psychology, Vol. 32, No. 3, pp. 221-233 (1948)
  • (3) 建石由佳・小野芳彦・山田尚勇:「日本文の読みやすさの評価式」,文書処理とヒューマンインターフェース,Vol. 18, No. 1, pp. 1-8 (1988)
  • (4) 柴崎秀子・玉岡賀津雄:「国語科教科書を基にした小・中学校の文章難易学年判定式の構築」,日本教育工学会論文誌,Vol. 33, No. 4, pp. 449-458 (2010)
  • (5) S. Sato, S. Matsuyoshi, and Y. Kondoh: “Automatic Assessment of Japanese Text Readability Based on a Textbook Corpus”, Proc. 6th International Language Resources and Evaluation (2008)
もっと見る
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る