Pat
J-GLOBAL ID:201303081003261490
テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体
Inventor:
,
,
,
Applicant, Patent owner:
Agent (1):
川久保 新一
Gazette classification:特許公報
Application number (International application number):2007180311
Publication number (International publication number):2009015795
Patent number:4873738
Application date: Jul. 09, 2007
Publication date: Jan. 22, 2009
Claim (excerpt):
【請求項1】 入力したテキストを、文単位に分解するテキスト分解部と;
上記テキスト分解部が分解した文を形態素解析し、解析された形態素のうちで、名詞を検索語として抽出する検索語抽出部と;
上記検索語抽出部が抽出した検索語によってウェブ検索し、検索されたテキストを形態素解析し、この解析された形態素のうちで、名詞を関連語として取得する関連語取得部と;
上記検索語と上記関連語との組み合わせであるキーワード集合を用いて、上記入力したテキストを分解した複数の上記文同士の連結性を判定し、ブロックを抽出することによって、上記入力したテキストを分割する連結性判定部と;
を有し、
上記連結性判定部は、
ブロック幅bに対して、i番目の文を最後とした前b個の文のブロックB1と、i+1番目の文を先頭とした後b個の文のブロックB2とを作成するブロック作成手段と;
各ブロックのキーワード集合に含まれる単語の出現頻度により、ブロックB1とブロックB2とに含まれている単語が同じほどに高い値を示す式を用いて、ブロック幅bにおけるi番目の文とi+1番目の文との連結度Cibを計算する連結度計算手段と;
複数のブロック幅に対して計算されたi番目の文とi+1番目の文との連結度Cibの平均値を算出し、i番目の文とi+1番目の文とにおける平均連結度Ciを求める平均連結度取得手段と;
上記平均連結度Ciが所定の閾値よりも高ければ、i番目の文とi+1番目の文とを同じ意味段落の文として扱い、上記平均連結度Ciが所定の閾値よりも高くなければ、i番目の文とi+1番目の文とは異なる意味段落の文として扱うことによって、上記入力したテキストを分割するテキスト分割手段と;
を備えることを特徴とするテキストセグメンテーション装置。
IPC (3):
G06F 17/30 ( 200 6.01)
, G06F 17/28 ( 200 6.01)
, G06F 17/21 ( 200 6.01)
FI (4):
G06F 17/30 220 Z
, G06F 17/30 170 A
, G06F 17/28 U
, G06F 17/21 550 A
Patent cited by the Patent:
Article cited by the Patent:
Return to Previous Page