http://jubat.us/ にて先ほど公開されましたビッグデータをリアルタイムに高速分析処理する基盤技術 「Jubatus」 について少し追ってみましょう。
Twitter : https://twitter.com/#!/JubatusOfficial
—
「大量データ」を「常に素早く」「深く解析」する、大規模分散リアルタイム解析フレームワーク。
大量のデータを複数のサーバーに振り分け、並列かつ逐次的に処理させていくもの。
Hadoop と異なるのは、Jubatus は始まったばかり。 // 普段私が取り組んでいる GPGPU はローカル並列モデルですが、 Hadoop 、 Jubatus もまた並列度を高めていくもの。世の中の方向性は計算ノード、ストレージノード、結果(出力)ノードにきちんと向いていくと感じます。
いつまでも 高性能 CPU に期待していては駄目だと思う。
—
[amazon_enhanced asin=”4873115035″ container=”” container_class=”” price=”All” background_color=”FFFFFF” link_color=”000000″ text_color=”0000FF” /] [amazon_enhanced asin=”4798122335″ container=”” container_class=”” price=”All” background_color=”FFFFFF” link_color=”000000″ text_color=”0000FF” /] [amazon_enhanced asin=”4873115124″ container=”” container_class=”” price=”All” background_color=”FFFFFF” link_color=”000000″ text_color=”0000FF” /] [amazon_enhanced asin=”4873114357″ container=”” container_class=”” price=”All” background_color=”FFFFFF” link_color=”000000″ text_color=”0000FF” /]
■動作環境
- Linux 2.6 + (チュートリアルシナリオでは CentOS 5.2)
- gcc 4.0 +
- pkg-config
- python 2.6+ and msgpack-python
- libmsgpack
- pficommon – must be configured with msgpack enabled.
- re2
- ux-trie / MeCab (optional)
- ZooKeeper server and C client (optional, for multiple processes)