OSSを活用したTwitterデータ提供システムの構築

関堅吾; 金子崇之; 山下真一

文献

J-GLOBAL ID：201402209328326114 整理番号：14A0503136

OSSを活用したTwitterデータ提供システムの構築

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=14A0503136&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=14A0503136&from=J-GLOBAL&jstjournalNo=L7829A") }}

著者 (3件)： , ,
資料名：
巻： 5 号： 2 ページ： 110-119 発行年： 2014年04月15日
JST資料番号： L7829A ISSN： 1884-5541 資料種別：逐次刊行物 (A)
記事区分：解説発行国：日本 (JPN) 言語：日本語 (JA)

(株)NTTデータでは日本語関連ツイートを蓄積し,API(Application Program Interface)を通じて利用者に提供している。本論文では,1)トラフィックの継続的な増加,2)ツイート数の瞬間的な増加,3)Firehoseからのデータ再取得の難しさといった本Twitterデータ提供システム開発での課題とその対策について述べた。1)には,i)サーバのスケールアウト構成,ii)受信サーバの処理軽減,iii)フィルターホース配信サーバにおけるマッチ処理の高速化,iv)データフロー上隣接するサーバの同一スイッチ接続,v)ツイート削除メッセージ量の絞り込みを行った。2)に対してはサーバ間に置かれたキューによる吸収,及びリングバッファを用いたDBアクセスのタイムアウト時間の自動調整を図った。また,3)にはSPOF(Single Point of Failure)を排除することで,メンテナンスや単一障害で処理が止まることがないようにした。さらに,蓄積基盤としてApache Hadoopを用いており,a)圧縮形式SnappyとファイルフォーマットSequenceFileとの組合せによる圧縮とスプリットの両立,b)JSONのパース・構築オーバヘッドを回避するためのSequenceFileのキーと値の設計,c)検索範囲が長期間に渡る複数クエリのまとめ込みを採用した。

, , , , , , , , , , , , ,
, , , ,

その他の情報処理 , 計算機システム開発

引用文献 (32件)：

FORM S-1, REGISTRATION STATEMENT, Twitter, Inc., http://www.sec.gov/Archives/edgar/data/1418091/000119312513390321/d564001ds1.htm
(株)NTTデータ:米Twitter社とツイートデータ提供に関するFirehose契約を締結, http://www.nttdata.com/jp/ja/news/release/2012/092700.html
(株)NTTデータ:Twitterデータ提供サービスの開始について, http://www.nttdata.com/jp/ja/news/release/2012/111900.html
Twitter Developers, GET statuses/firehose, https://dev.twitter.com/docs/api/1.1 /get/statuses/firehose
Apache ZooKeeper, http://zookeeper.apache.org/

, , ,

前のページに戻る