Pat
J-GLOBAL ID:200903036963105851

ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体

Inventor:
Applicant, Patent owner:
Agent (1): 志賀 正武
Gazette classification:公開公報
Application number (International application number):2000300276
Publication number (International publication number):2002108888
Application date: Sep. 29, 2000
Publication date: Apr. 12, 2002
Summary:
【要約】【課題】 多数のディジタルコンテンツから精度の高いキーワードを抽出して、効率よく検索を行えるようにする。【解決手段】 データベース部303に蓄積された複数のディジタルコンテンツにおけるタイトル、作者名、概要を含む各テキストデータから人物名を抽出すると共に、その人物名の出現頻度をコンテンツ毎に計算する。次に、人物名を要素とし出現頻度を要素値とする人物ベクトルをコンテンツ毎に作成し、人物ベクトルに基づいてコンテンツ間の類似度を求め、類似度に基づいてコンテンツをグループ分けする。また、各テキストデータから単語を抽出してキーワード候補とし、各候補の重要度を計算する。次に、キーワード候補を要素とし重要度を要素値とするキーワードベクトルを作成し、上記グループ毎にキーワードベクトルの和を求め、その結果から重要度の高いキーワード候補をそのグループのキーワードとして決定する。
Claim (excerpt):
それぞれタイトル、作者名、概要を含むテキストデータが付与された複数のディジタルコンテンツにおける各テキストデータから人物名を抽出する人物名抽出手段と、前記抽出された人物名の出現頻度をディジタルコンテンツ毎に計算する頻度計算手段と、前記人物名を要素とし、前記出現頻度を要素値とする人物ベクトルをディジタルコンテンツ毎に作成する人物ベクトル作成手段と、前記人物ベクトルに基づいてディジタルコンテンツ間の類似度を計算し、計算された類似度に基づいてディジタルコンテンツをグループに分類する分類手段とを設けたことを特徴とするディジタルコンテンツのキーワード抽出装置。
IPC (5):
G06F 17/30 210 ,  G06F 17/30 ,  G06F 17/30 170 ,  G06F 17/30 340 ,  G06F 17/30 350
FI (5):
G06F 17/30 210 A ,  G06F 17/30 210 D ,  G06F 17/30 170 A ,  G06F 17/30 340 B ,  G06F 17/30 350 C
F-Term (7):
5B075ND03 ,  5B075NK04 ,  5B075NK31 ,  5B075NR12 ,  5B075PR04 ,  5B075PR06 ,  5B075QM08

Return to Previous Page