文献
J-GLOBAL ID:201702214119210622   整理番号:17A0901595

Apache SparkのSerialize処理最適化による処理速度向上手法

著者 (3件):
資料名:
巻: 2017  号: OS-141  ページ: Vol.2017-OS-141,No.16,1-7 (WEB ONLY)  発行年: 2017年07月19日 
JST資料番号: U0451A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ビッグデータの解析手法として,クラスタ環境を用いた並列分散処理が注目されており,並列分散処理を効率的に記述するためのフレームワークとしてApache Sparkが普及している。Sparkはデータに対して多段な処理が発生する場合でもメモリ上で処理するため,他のフレームワークと比較してディスクアクセスの回数が減少し,パフォーマンスが向上する。しかし,計算機間でのデータ転送を必要とするShuffle処理では,大量のデータが転送されるため,処理全体の性能が低下する。Shuffle処理の際,転送元の計算機において送信データのSerializeが行われ,同様に転送先の計算機において受信データのDeserializeが行われる。Serialize/DeserializeはWordサイズやByteオーダなどの仕様が異なる計算機間のデータ転送では有用であるが,SparkのプロセスはすべてJVM上で動作しているため,このような仕様はすべて統一されており,Serialize/Deserializeは簡素化できる。そこで本研究ではSerialize/Deserialize処理を最適化してデータ転送性能の向上を図る。具体的には,送信データに対するSerializeを簡素化して,クラス名などの省略可能な情報を付与せずバイト列変換のみを行い,転送先では受信データをバイト列のままデータとして扱うことで処理速度が向上する。評価から,JavaSerializerと比較した際にSerialize/Deserialize処理にかかる時間を最大57.3%削減,全体の処理時間を最大19.8%削減し,手法の有効性を確認した。(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
ディジタル計算機方式一般  ,  計算機網 
引用文献 (12件):
  • J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and AH. Byers. Big data: The next frontier for innovation, competition, and productivity. A report by the McKinsey Global Institute, May 2011. https://bigdatawg.nist.gov/pdf/MGI_big_data_full_report.pdf.
  • Matei Zaharia. Spark: In-Memory Cluster Computing for Iterative and Interactive Applications. In Invited Talk. NIPS Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale (Granada, Spain.), December 12-17, 2011.
  • Apache Hadoop. http://hadoop.apache.org/.
  • Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauley, Michael J Franklin, Scott Shenker, and Ion Stoica. Resilient distributed datasets: A fault-tolerant abstraction for in-memory cluster computing. In Proc. 9th USENIX conference on Networked Systems Design and Implementation (California, USA.), p. 2, April 2012.
  • Konstantin Shvachko, Hairong Kuang, Sanjay Radia, and Robert Chansler. The hadoop distributed file system. In 2010 IEEE 26th symposium on mass storage systems and technologies (Nevada, USA.), pp. 1-10, May 2010.
もっと見る
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る