特許
J-GLOBAL ID:201103003439266042

複合名詞抽出装置

発明者:
出願人/特許権者:
代理人 (5件): 金山 聡 ,  深町 圭子 ,  伊藤 英生 ,  藤枡 裕実 ,  後藤 直樹
公報種別:公開公報
出願番号(国際出願番号):特願2009-205518
公開番号(公開出願番号):特開2011-059754
出願日: 2009年09月07日
公開日(公表日): 2011年03月24日
要約:
【課題】 事前に複合名詞リストや詳細なルールを記述することなく、適切な複合名詞を抽出することが可能な複合名詞抽出装置を提供する。【解決手段】 文書データを形態素解析した後、形態素の品詞情報で品詞結合規則を参照し、連続する形態素が結合規則に適合する場合に、その連続する形態素を複合名詞候補として、複合名詞候補データ150を得る。そして、複合名詞候補を構成する先頭の形態素、末尾の形態素それぞれについて、文字列頻度データを参照して先頭の形態素の前方スコア、末尾の形態素の後方スコアを取得し、両スコアがともにスコア設定値より大きい場合に、先頭の形態素から末尾の形態素までの文字列を複合名詞として抽出する。【選択図】 図8
請求項(抜粋):
文書データに対して形態素解析を実行し、形態素、および各形態素の品詞情報を含む形態素解析データを得る形態素解析手段と、 前記形態素解析データに含まれる形態素の品詞情報で、各品詞について結合するか否かを記録した品詞結合規則データを参照し、連続する形態素がいずれも結合するものである場合に、当該連続する形態素を複合名詞候補とする複合名詞候補作成手段と、 前記複合名詞候補を構成する先頭の形態素、末尾の形態素それぞれについて、文字列頻度データを参照し、先頭の形態素、末尾の形態素の出現頻度に基づくスコアを取得し、両スコアがともに所定の条件を満たす場合に、先頭の形態素から末尾の形態素までの文字列を複合名詞として抽出する複合名詞抽出手段と、 を有することを特徴とする複合名詞抽出装置。
IPC (2件):
G06F 17/27 ,  G06F 17/30
FI (2件):
G06F17/27 E ,  G06F17/30 210A
Fターム (4件):
5B075ND03 ,  5B075NK32 ,  5B091AB11 ,  5B091CA02
引用文献:
前のページに戻る