抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
編集距離(レーベンシュタイン距離)は文字列の距離を表すモデルの一つであり,ゲノムの比較をする際に頻繁に使われている。その一方で,素朴な方法は文字列長の2乗の計算時間であること,近似なしの高速計算は難しいこと,配列比較で重要視される局所的な類似性を考慮せず,とびとびの対応である程度類似すると判断するという問題点もある。本稿では,局所的な類似性に基づいた新しい類似性の尺度とその高速な計算手法を提案する。直観的には,編集距離はいかに多くの同一な文字を,入れ替えなしで対応できるかであるが,提案する断片編集距離では,ハミング距離が閾値以下の(長さが固定された)短い文字列を対応させる。これにより局所的な類似性を持つ部分のみを考慮できる。また,多くの場合,このようなハミング距離が閾値以下の短い文字列の組は,配列上に連続して現れることから,連続した出現をひとまとまりにすることで入力データ量を減らすと共に,計算幾何学的な手法を使うことで距離を高速計算するアルゴリズムを提案する。計算実験の結果,既存手法では計算できないような巨大な配列に対しても,本アルゴリズムは短時間で計算が終了することを示す。(著者抄録)