抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
著者らは,テキストの読みやすさに基づいた評価手法について研究し,日本語テキストを対象とした自動分類システムの構築を目標としている。ここでの「読みやすさ」とは,テキスト内容や語句の難易度レベルだけで決まるものではなく,見た目や文の構造・論理構成で決まるものとする。すなわち,テキスト構造の複雑さを評価基準とする。精度の高い判定結果を得るためには,テキストの特徴を反映した素性を取り出すことが必要である。これまでに,日本語論文を対象とし,文書の見た目および係り受け構造から読みやすさを判定する方法を提案している。本研究では,Web文書を対象として,文書分類を利用した難易度評価手法を拡張し,文字の出現頻度だけではなく他の特徴を導入することで,テキストの読みやすさに応じた判定を実現する。Web文書は,生のテキストデータとテキストの構造・見た目を制御する付加情報から構成されている。これら二つの構成要素から読みやすさに関わる要因を調査し,特徴を抽出する手法を提案した。まず,テキストそのものの特徴として,表層的特徴,文の構造的特徴,論理の流れとしている。それぞれの要因から特徴を抽出することで,テキストの読みやすさに応じた特徴ベクトルとした。また,HTML構造においてHTMLタグと論理構造に着目し,読みやすさの要因として,特徴抽出を行った。これらの特徴ベクトルから機械学習によって,未知のWeb文言を読みやすさに基づいて分類するシステムを提案した。そして,情報分類の精度評価で用いられるRMSE(平均2乗平方根誤差)を基準とした評価実験により,本システムが単語の出現頻度を特徴ベクトルとした場合よりも,より精度の高い分類が可能になることを確認した。これにより,本論文で提案したWeb文書からの読みやすさに関する特徴抽出の有効性を示すことができた。