Apache Hiveを用いたスケーラブルな機械学習機構の構築

油井誠; 小島功

文献

J-GLOBAL ID：201502221352472910 整理番号：15A0852221

Apache Hiveを用いたスケーラブルな機械学習機構の構築

Building Scalable Machine Learning Framework on Apache Hive

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=15A0852221&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=15A0852221&from=J-GLOBAL&jstjournalNo=U0476A") }}

著者 (2件)： ,
資料名：
巻： 8 号： 1 ページ： 73-87 (WEB ONLY) 発行年： 2015年03月30日
JST資料番号： U0476A ISSN： 1882-7799 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

我々はApache Hive上で動作する機械学習ライブラリHivemallをオープンソースソフトウェアとして公開している。Hivemallはオープンソースの機械学習フレームワークとしてデータ量に対するスケーラビリティが最も高いものの1つであり,Hadoop Distributed Filesystem(HDFS)に格納されたデータを入力とした機械学習処理を効率的に扱えるという特徴からHadoop/Hiveに精通する開発者やデータ分析の専門家から注目を集めている。本稿では,Hivemallによるスケーラブルな機械学習を実現するうえで得られた実践的な知見,およびその実現手法を述べる。KDD Cup 2012,Track2の広告クリックスルー率の予測タスクを用いた評価実験により,学習速度に定評のあるState-of-the-artの機械学習フレームワークに対してHivemallがより短い学習時間で同等以上の予測精度を出せることを示し,さらに計算ノードの追加によって学習時間を短縮できることを示す。(著者抄録)

, , , , , ,
, , , , ,

人工知能

引用文献 (48件)：

Dean, J. and Ghemawat, S.: MapReduce: Simplified Data Processing on Large Clusters, Proc. OSDI, pp.137-150 (2004).
The Apache Foundation: Apache Hadoop, available from (http://hadoop.apache.org/).
The Apache Foundation: Apache Hive, available from (http://hive.apache.org/).
Shvachko, K., Kuang, H., Radia, S. and Chansler, R.: The Hadoop Distributed File System, Proc. IEEE Mass Storage Systems and Technologies (MSST), pp.1-10 (2010).
Zukowski, M., Nes, N. and Boncz, P.: DSM vs. NSM: CPU performance tradeoffs in block-oriented query processing, Proc. DaMoN, pp.47-54 (2008).

, ,

前のページに戻る