特許
J-GLOBAL ID:200903072823862403
異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
発明者:
出願人/特許権者:
代理人 (1件):
高野 明近 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願2000-265266
公開番号(公開出願番号):特開2002-073656
出願日: 2000年09月01日
公開日(公表日): 2002年03月12日
要約:
【要約】【課題】 表記のゆれを有する異表記のカタカナ列に対し、最も適切な異表記正規化処理および異表記展開処理を施し、無駄な異表記展開や検索漏れの発生を防止できる異表記展開を実現する。【解決手段】 テキストから連続するカタカナ列を抽出し、正規化規則123aに基づいて正規化表記を得る正規化部122と、正規化表記に置換されたテキストから、さらに、連続するカタカナ列を抽出し、異表記展開辞書127aに基づいて正規化表記の異表記に展開する異表記展開部126とを有し、正規化表記への変換規則を登録した正規化規則123aまたは/および展開される異表記を登録した異表記展開辞書127aが分割単位を構成する見出し語毎に任意に設定可能な見出し語コストを有することにより、正規化部122または/および異表記展開部126がコスト最小法形態素解析を適用した正規化処理または/および異表記展開処理を行う。
請求項(抜粋):
入力テキストを受け付ける入力処理ステップと、前記入力テキストから連続するカタカナ列を抽出し、正規化規則に基づいて、抽出した該カタカナ列である原表記に異表記正規化処理を行なわしめ、正規化表記を得る正規化ステップと、前記異表記正規化処理の結果を出力する結果出力ステップとを有する異表記正規化処理方法において、前記正規化規則が、分割単位を構成する形態素となる見出し語と、該見出し語毎に対応する正規化表記と、任意に設定可能な見出し語コストとを有してなることにより、前記正規化ステップが、コスト最小法形態素解析を適用した正規化処理からなることを特徴とする異表記正規化処理方法。
IPC (4件):
G06F 17/30 320
, G06F 17/30 170
, G06F 17/21 550
, G06F 17/21 590
FI (4件):
G06F 17/30 320 D
, G06F 17/30 170 A
, G06F 17/21 550 K
, G06F 17/21 590 E
Fターム (6件):
5B009QA15
, 5B009VA02
, 5B075ND03
, 5B075NK02
, 5B075PP22
, 5B075PQ02
引用特許: