抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
一般化接尾辞木(GST)はDNA配列パターン探索,データ圧縮と時系列分析のようなストリングに基づく応用で広く使われている木構造である。近似ストリングマッチングと最長共通部分列を見出すようなストリング操作を効率的に加速できた。ビッグデータ時代において,大規模ストリング(例えば,ゲノム配列)を処理する応用は一般的であるので,大量のGSTを構築するためのスケーラブルなアプローチを設計することが重要である。本論文では,Apache火花,汎用ビッグデータ処理システムの上にGSTを構築するための分散型アプローチを導入した。提案アプローチのフレームワークは,弾性範囲アルゴリズム(ERA),最新のGST構築アルゴリズムに基づいている。元時代とは異なり,提案アプローチでは,GSTの構造と部分木構築,GST建設と貯蔵のメモリ要求を大幅に低減を最適化する。加えて提案方式を高速化するためのサーバル最適化手法を提案した。著者らの実験結果により,提案アプローチでは,8人の労働者を有する火花クラスタ上で5分以内に十億文字列を示すことができることを示した。,最適化技術は,全体的な索引時間に約5倍の高速化を得た。Copyright 2017 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】