抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
近年では,開発環境の変化に伴って開発者が大量の自然言語文書を扱う機会が増えており,文書をトピック分類するためのトピックモデルであるLDAが注目されている。LDAの適用においては,前処理で用いられるストップワードリストによって一般語をフィルタリングし,より正確なトピック分類を試みるが,通常のストップワードリストでは対象文書にのみ頻出する単語に対応できないという問題があった。また,1トピックに集約されるべき文書が複数トピックに分散してしまう問題があった。本研究では,これらの問題を解消するため,LDA適用の前後に対象文書からのストップワード抽出と類似トピック統合の2つの処理を追加する手法を提案する。この提案手法では,対象となる自然言語文書から頻出語を特定しストップワードリストに加えるべき単語を抽出することで,対象文書から適切なストップワードリストを作成する。また,分類されたトピックについて構成する単語の類似度からそれぞれのトピック間距離を算出し類似トピックを統合する。提案手法を3種類の文書に適用する実験を行った結果,通常のトピック分類よりも正確性が向上していることが確認できた。(著者抄録)