特許
J-GLOBAL ID:200903089839900194
ドメイン別概念辞書構築方法及び装置及びプログラム
発明者:
,
,
,
出願人/特許権者:
代理人 (1件):
伊東 忠彦
公報種別:公開公報
出願番号(国際出願番号):特願2004-042817
公開番号(公開出願番号):特開2005-234865
出願日: 2004年02月19日
公開日(公表日): 2005年09月02日
要約:
【課題】 同一ジャンルに属する語句の概念間の類似度と、異なるジャンルに属する語句の概念間の類似度とを同時に表現する概念辞書を、対象ドメインに応じて自動的に構築する。【解決手段】 本発明は、構築しようとする辞書が対象とするドメインに関連のある大量の文書中から語句を抽出し、文書ごとの抽出語句リストとして抽出語句データベースに記録し、抽出語句データベースに記録された語句集合から、2種類の異なる選定基準によって語句を選定し、それぞれ語句リストとしてデータベースに記録し、データベースに記録された2種類の語句リストを参照し、双方のリストの語句間の関連度を計算する。【選択図】 図1
請求項(抜粋):
同一ジャンル内に属する語句の概念間の類似度と、異なるジャンルに属する語句の概念間の類似度とを同時に表現する概念辞書を自動的に構築する、ドメイン別概念辞書構築方法において、
構築しようとする概念辞書が対象とするドメインに関連のある大量の文書中から語句を抽出し、文書毎の抽出語句リストとして抽出語句データベースに記録する語句抽出ステップと、
前記抽出語句データベースに記録された語句集合から、2種類の異なる選定基準によって語句を選定し、それぞれ語句リストとしてデータベースに記録する語句選定ステップと、
前記データベースに記録された2種類の語句リストを参照し、双方のリストの語句間の関連度を計算する概念ベクトル生成ステップと、を行い、
前記語句抽出ステップにおいて、
外部の情報源から前記対象とするドメインに分類される文書を収集する文書データ取得ステップと、
前記文書データ取得ステップで取得した文書データから語句を抽出して、前記抽出語句データベースに記録する語句抽出ステップと、を行い、
前記語句選定ステップにおいて、
対象ドメインに特徴的であって、構築しようとする概念辞書の見出し語となる語句を定義語句として選定する定義語句選定ステップと、
特定のジャンルに特徴的であって、且つ、複数のジャンルに関連のある語句を基底語句として選定する基底語句選定ステップと、
を、行い、
前記概念ベクトル生成ステップにおいて、
前記定義語句が前記基底語句の各々と同一文書に出現するか否かを調べ、同一文書に出現する回数が多いほど、語句間の関連度が深いとして重みを付けることにより、該定義語句の概念を、各基底語句を属性とする概念ベクトルで表現した概念辞書を生成する概念ベクトル計算ステップと、
前記概念辞書について、該概念辞書から得ることのできる情報量を算出し、前記基底語句選定ステップを再実行して基底語句を再選定し、前記情報量の値が増加するよう該基底語句の再選定を繰り返えさせることで、適当な概念辞書を出力させる概念辞書評価ステップ、を行うことを特徴とするドメイン別概念辞書構築方法。
IPC (1件):
FI (4件):
G06F17/30 350C
, G06F17/30 170A
, G06F17/30 340B
, G06F17/30 340Z
Fターム (5件):
5B075ND03
, 5B075PR04
, 5B075PR06
, 5B075QM07
, 5B075UU01
引用特許:
引用文献: