Apache SparkのSerialize処理最適化による処理速度向上手法

稲垣英夫; 川島龍太; 松尾啓志

文献

J-GLOBAL ID：201702214119210622 整理番号：17A0901595

Apache SparkのSerialize処理最適化による処理速度向上手法

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A0901595&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A0901595&from=J-GLOBAL&jstjournalNo=U0451A") }}

著者 (3件)： , ,
資料名：
巻： 2017 号： OS-141 ページ： Vol.2017-OS-141,No.16,1-7 (WEB ONLY) 発行年： 2017年07月19日
JST資料番号： U0451A 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

ビッグデータの解析手法として,クラスタ環境を用いた並列分散処理が注目されており,並列分散処理を効率的に記述するためのフレームワークとしてApache Sparkが普及している。Sparkはデータに対して多段な処理が発生する場合でもメモリ上で処理するため,他のフレームワークと比較してディスクアクセスの回数が減少し,パフォーマンスが向上する。しかし,計算機間でのデータ転送を必要とするShuffle処理では,大量のデータが転送されるため,処理全体の性能が低下する。Shuffle処理の際,転送元の計算機において送信データのSerializeが行われ,同様に転送先の計算機において受信データのDeserializeが行われる。Serialize/DeserializeはWordサイズやByteオーダなどの仕様が異なる計算機間のデータ転送では有用であるが,SparkのプロセスはすべてJVM上で動作しているため,このような仕様はすべて統一されており,Serialize/Deserializeは簡素化できる。そこで本研究ではSerialize/Deserialize処理を最適化してデータ転送性能の向上を図る。具体的には,送信データに対するSerializeを簡素化して,クラス名などの省略可能な情報を付与せずバイト列変換のみを行い,転送先では受信データをバイト列のままデータとして扱うことで処理速度が向上する。評価から,JavaSerializerと比較した際にSerialize/Deserialize処理にかかる時間を最大57.3%削減,全体の処理時間を最大19.8%削減し,手法の有効性を確認した。(著者抄録)

, , , , , , , , ,
, ,

ディジタル計算機方式一般 , 計算機網

引用文献 (12件)：

J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and AH. Byers. Big data: The next frontier for innovation, competition, and productivity. A report by the McKinsey Global Institute, May 2011. https://bigdatawg.nist.gov/pdf/MGI_big_data_full_report.pdf.
Matei Zaharia. Spark: In-Memory Cluster Computing for Iterative and Interactive Applications. In Invited Talk. NIPS Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale (Granada, Spain.), December 12-17, 2011.
Apache Hadoop. http://hadoop.apache.org/.
Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauley, Michael J Franklin, Scott Shenker, and Ion Stoica. Resilient distributed datasets: A fault-tolerant abstraction for in-memory cluster computing. In Proc. 9th USENIX conference on Networked Systems Design and Implementation (California, USA.), p. 2, April 2012.
Konstantin Shvachko, Hairong Kuang, Sanjay Radia, and Robert Chansler. The hadoop distributed file system. In 2010 IEEE 26th symposium on mass storage systems and technologies (Nevada, USA.), pp. 1-10, May 2010.

, , ,

前のページに戻る