特許
J-GLOBAL ID:200903000617137696

文書分類方法及び文書分類プログラム

発明者:
出願人/特許権者:
代理人 (4件): 三好 秀和 ,  三好 保男 ,  高橋 俊一 ,  勝 治人
公報種別:公開公報
出願番号(国際出願番号):特願2003-099429
公開番号(公開出願番号):特開2004-310199
出願日: 2003年04月02日
公開日(公表日): 2004年11月04日
要約:
【課題】利用者が事前に分類を行った文書の集まりをコンピュータシステムに与えなくても、トピックによる非排他的な文書分類を行うことができるとともに、該文書分類を検索に適用しても榛索精度の向上に寄与することができる文書分類方法及び文書分類プログラムを提供する。【解決手段】文書分類・検索装置1は、文書記憶部11、文書分類部12、及び文書検索部13を備えており、文書記憶部11に入力された複数の文書djを自動的にトピックに基づいて文書分類し、該文書分類を用いて検索問い合わせqjに応え、検索結果ajを出力する装置である。文書分類部12は、文書記憶部11に検索対象の文書として記憶されている複数の文書diを重要語に基づいて分類し、さらにRSモデルに従ってそれぞれの文書djの文書ベクトルD’jを生成し、文書記憶部11に生成された文書ベクトルD’jを記憶させる。【選択図】 図1
請求項(抜粋):
文書検索の検索対象として用いられる複数の文書をトピックに基づいて分類する文書分類方法であって、 前記複数の文書を記憶している文書記憶手段から前記複数の文書を取得して、それぞれの文書に含まれるすべての単語の重要度を計算するステップと、 前記それぞれの文書において前記単語を前記重要度の高い順に並べ替えて、重要度降順リストを作成するステップと、 前記複数の文書すべての中から前記重要度に関する値に従って、ストップワードのサンプル及び前記トピックになり得る重要語のサンプルを選定するステップと、 前記重要度降順リストの所定の順位以内に出現する前記ストップワードのサンプル及び前記重要語のサンプルを含む文書をそれぞれ集めたストップワード及び重要語の文書クラスタを作成し、両クラスタの文書数が同一となる前記所定の順位に基づいて重要語の最大数を決定するステップと、 前記それぞれの文書の前記重要度降順リストにおいて前記重要語の最大数の順位以内の単語をそれぞれの文書の重要語として決定し、該重要語を前記トピックとするトピック決定ステップと、 前記トピックごとに該トピックを含む文書を集めて文書クラスタを作成するステップと、 前記複数の文書すべての文書ベクトルを前記単語の重要度を要素して生成するステップと、 前記文書クラスタの代表ベクトルを該文書クラスタに含まれる文書の文書ベクトルの平均から計算するステップと、 前記それぞれの文書のトピックの個数の最小値を算出し、該最小値を前記それぞれの文書の本質的なトピック数と擬制するステップと、 前記それぞれの文書ごとに前記本質的なトピック数を用いて前記それぞれの文書が所属する前記文書クラスタの代表ベクトルの平均を計算し、該平均を文書ベクトルに反映させて文書ベクトルを補正し、この補正された文書ベクトルを前記文書記憶手段に記憶するステップと、 をコンピュータが実行することを特徴とする文書分類方法。
IPC (1件):
G06F17/30
FI (3件):
G06F17/30 210D ,  G06F17/30 170A ,  G06F17/30 350C
Fターム (7件):
5B075ND03 ,  5B075NR12 ,  5B075PR04 ,  5B075PR06 ,  5B075PR08 ,  5B075QM08 ,  5B075QS01

前のページに戻る