抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ビッグデータの解析手法として,クラスタ環境を用いた並列分散処理が注目されており,並列分散処理を効率的に記述するためのフレームワークとしてApache Sparkが普及している。Sparkはデータに対して多段な処理が発生する場合でもメモリ上で処理するため,他のフレームワークと比較してディスクアクセスの回数が減少し,パフォーマンスが向上する。しかし,計算機間でのデータ転送を必要とするShuffle処理では,大量のデータが転送されるため,処理全体の性能が低下する。Shuffle処理の際,転送元の計算機において送信データのSerializeが行われ,同様に転送先の計算機において受信データのDeserializeが行われる。Serialize/DeserializeはWordサイズやByteオーダなどの仕様が異なる計算機間のデータ転送では有用であるが,SparkのプロセスはすべてJVM上で動作しているため,このような仕様はすべて統一されており,Serialize/Deserializeは簡素化できる。そこで本研究ではSerialize/Deserialize処理を最適化してデータ転送性能の向上を図る。具体的には,送信データに対するSerializeを簡素化して,クラス名などの省略可能な情報を付与せずバイト列変換のみを行い,転送先では受信データをバイト列のままデータとして扱うことで処理速度が向上する。評価から,JavaSerializerと比較した際にSerialize/Deserialize処理にかかる時間を最大57.3%削減,全体の処理時間を最大19.8%削減し,手法の有効性を確認した。(著者抄録)