特許
J-GLOBAL ID:200903001327700490
日本語統計データ作成装置および方法、並びにディクテーションシステム
発明者:
出願人/特許権者:
代理人 (1件):
鈴江 武彦 (外6名)
公報種別:公開公報
出願番号(国際出願番号):特願平11-222560
公開番号(公開出願番号):特開2001-051992
出願日: 1999年08月05日
公開日(公表日): 2001年02月23日
要約:
【要約】【課題】複数の読みのある単語の場合、文章中の近接する他の単語から当該複数の読みのある単語の読みが確定できるなら、その読みのみ出現回数を数える。【解決手段】日本語データベース2から取得される日本語文を単語分割部13にて読みと表記と品詞の組からなる単語に分割する。読み選択部17では、分割された単語に複数の読みが存在する場合、それぞれの読みと表記と品詞の組の単語により関連語チェック部16にて関連語辞書15をチェックさせ、当該単語の関連語が存在する場合、その関連語が当該単語と同一文中に含まれているか否かを調べさせる。読み選択部17は、関連語が同一文中に含まれている場合は、その関連語に対応した読みと表記と品詞の組の単語のみを選択し、それ以外の場合は、すべて選択し、その読みと表記と品詞の組の単語について、統計データ作成部14により単語の出現回数および隣接する単語の並びの出現回数に数えさせる。
請求項(抜粋):
日本語データベースに格納されている日本語コーパスに基づいて、読みと表記と品詞の組からなる単語の出現回数および隣接する単語の並びの出現回数を含む日本語統計データを作成する日本語統計データ作成装置において、前記日本語データベースから取得される日本語文を形態素解析して読みと表記と品詞の組からなる単語に分割する単語分割手段と、読みと表記と品詞の組が異なる単語毎に、その単語に対して同一文中に近接して用いられる可能性の高い関連語を記述した関連語辞書と、前記単語分割手段によって分割された単語に複数の読みが存在する場合、それぞれの読みと表記と品詞の組の単語により前記関連語辞書を検索し、当該単語の関連語が取得できたならば、この関連語が当該単語と同一日本語文中に含まれているか否かを調べる関連語チェック手段と、前記単語分割手段により分割された単語に複数の読みが存在し、且つ、それぞれの読みと表記と品詞の組からなる単語のうち、その関連語が同一文中に含まれている単語が存在する場合には、該当する読みと表記と品詞の組の単語のみを選択し、それ以外の場合には、すべての読みと表記と品詞の組からなる単語を選択する読み選択手段と、前記日本語コーパスから、読みと表記と品詞の組からなる単語の出現回数および隣接する単語の並びの出現回数を計算する統計データ作成手段であって、前記読み選択手段により選択された読みと表記と品詞の組の単語について、単語の出現回数および隣接する単語の並びの出現回数に数える統計データ作成手段とを具備することを特徴とする日本語統計データ作成装置。
IPC (3件):
G06F 17/22
, G06F 17/27
, G10L 15/18
FI (5件):
G06F 15/20 503
, G06F 15/20 516
, G06F 15/20 550 A
, G06F 15/38 D
, G10L 3/00 537 G
Fターム (19件):
5B009KB06
, 5B009MB22
, 5B009ME21
, 5B009MG01
, 5B009QA03
, 5B091AA13
, 5B091BA02
, 5B091BA12
, 5B091CA02
, 5B091CC02
, 5B091CC05
, 5B091CC11
, 5B091DA02
, 5D015HH11
, 9A001EZ02
, 9A001FZ03
, 9A001GZ05
, 9A001HH17
, 9A001KK46
前のページに戻る