テキストマイニング装置およびテキストマイニング方法

発明者： , , ,
出願人/特許権者：
代理人 (5件)：曾我道照 , 曾我道治 , 古川秀利 , 鈴木憲七 , 梶並順
公報種別：公開公報
出願番号（国際出願番号）：特願2004-339262
公開番号（公開出願番号）：特開2006-146802
出願日： 2004年11月24日
公開日（公表日）： 2006年06月08日
要約：

【課題】従来のテキスト分析は、異表記の同一部品が別単語にカウントされないよう人手で構築した同義語辞書や類義語辞書を使用し、開発コストが大きい。一方、単語の出現傾向から関連性を獲得し、人手による類義語辞書なしで異表現文書が検索可能な技術は精度が低く、詳細分析業務には向かない。【解決手段】登録部で分析対象文書の統計情報と属性情報を別々のデータベースに格納し、分析基準の属性を入力部で指定し、指定属性対応キーワードを特徴語抽出部で統計情報から抽出し、キーワードと属性を関連付けて集計部で集計する。一方、抽出キーワードの関連語を関連語抽出部で統計情報から抽出し、関連語頻度加算部で関連語と属性を関連付けて集計して上記集計結果と加算し、関連語合算頻度傾向表示部で表示する。また、上記関連語と異なる傾向を示す他の関連語を関連語傾向相違検出部で検出し、関連語展開傾向表示部で、上述の関連語とは別の態様で表示する。【選択図】図1

請求項（抜粋）：

単語の統計情報を格納する単語データベースと、文書の属性情報を格納する属性データベースと、分析対象文書中のテキストを解析して得られる統計情報を上記単語データベースに格納するとともに分析対象文書に付与された属性情報を上記属性データベースに格納する登録部と、分析対象文書の分析軸となる属性を指定する入力部と、指定された属性に対応して特徴的な傾向を示す語であるキーワードを上記単語データベースの統計情報から抽出する特徴語抽出部と、上記キーワードと属性データベース中の属性とを関連付けて集計する集計部と、抽出された各キーワードに関連する語を上記単語データベースの統計情報から自動的に抽出する関連語抽出部と、上記抽出された関連語と属性データベース中の属性とを関連付けて集計し、上記集計部の集計結果と加算する関連語頻度加算部と、上記関連語の集計結果に基づき、関連語の中で他の関連語とは異なる傾向を示す関連語を検出する関連語傾向相違検出部と、上記関連語頻度加算部で加算した集計結果を表示する関連語合算頻度傾向表示部と、上記各関連語の集計結果に基づき傾向を表示する際に上記関連語傾向相違検出部により検出された他の関連語を異なる態様で表示する関連語展開傾向表示部と、を有することを特徴とするテキストマイニング装置。

IPC (2件)：

G06F 17/30 , G06F 19/00

FI (4件)：

G06F17/30 220Z , G06F17/30 170A , G06F17/30 210A , G06F19/00 130

Fターム (7件)：

5B075ND03 , 5B075NK32 , 5B075NK35 , 5B075NR12 , 5B075NS10 , 5B075PR04 , 5B075UU06

引用特許：

出願人引用 (2件)

テキストマイニング処理方法及びその実施装置
公報種別：公開公報出願番号：特願2001-341474 出願人：株式会社日立製作所
概念検索装置、概念検索方法、概念検索プログラムを記録した記録媒体およびコンピュータプログラム
公報種別：公開公報出願番号：特願2000-197027 出願人：株式会社野村総合研究所

前のページに戻る