抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
PPMにおいて用いられるESCはsuffix tree上のあるノードで新しい文字が出現することを意味する。これまでにそのESC確率を推定するための様々な手法が提案されてきた。しかし,それらのESC確率の推定値はESCの実際の頻度分布と大きくずれる場合があり,このずれがPPMの圧縮率を悪くしている。Calgary Corpus,Canterbury Corpus,Large Corpusに対して,PPMXで用いられるESC確率の推定値は,suffix tree上の枝数が多いノードにおいてはESCの実際の頻度分布とよく一致しているが,枝数が少ないノードにおいてはESCの実際の頻度分布よりも低く見積もられる。そこで本稿では,ESCの実際の頻度分布により近い推定値を出力できるように,suffix tree上のそれぞれのノードの枝数に応じて,PPMXの推定法とその改良推定法を切り換える手法(ESC確率推定切換え法)を提案する。友國-山本[6]はPPM
*の改良法として,符号語長の期待値が最小となる文脈のもとで符号化を行う手法(期待値法)を提案している。この期待値法とESC確率推定切換え法を組み合わせて用いた場合,それぞれのCorpusに対して,現在PPMファミリーの中で最も良い圧縮率を達成するPPMZよりも良い圧縮率が得られることを示す。(著者抄録)