X
Subscribe for notification
    Categories: 未分類

[IT] Jubatus / ビッグデータをリアルタイムに高速分析処理する基盤技術

http://jubat.us/  にて先ほど公開されましたビッグデータをリアルタイムに高速分析処理する基盤技術 「Jubatus」 について少し追ってみましょう。

Twitter : https://twitter.com/#!/JubatusOfficial

「大量データ」を「常に素早く」「深く解析」する、大規模分散リアルタイム解析フレームワーク。

大量のデータを複数のサーバーに振り分け、並列かつ逐次的に処理させていくもの。

Hadoop と異なるのは、Jubatus は始まったばかり。 // 普段私が取り組んでいる GPGPU はローカル並列モデルですが、 Hadoop 、 Jubatus もまた並列度を高めていくもの。世の中の方向性は計算ノード、ストレージノード、結果(出力)ノードにきちんと向いていくと感じます。

いつまでも 高性能 CPU に期待していては駄目だと思う。

[amazon_enhanced asin=”4873115035″ container=”” container_class=”” price=”All” background_color=”FFFFFF” link_color=”000000″ text_color=”0000FF” /]  [amazon_enhanced asin=”4798122335″ container=”” container_class=”” price=”All” background_color=”FFFFFF” link_color=”000000″ text_color=”0000FF” /]  [amazon_enhanced asin=”4873115124″ container=”” container_class=”” price=”All” background_color=”FFFFFF” link_color=”000000″ text_color=”0000FF” /]  [amazon_enhanced asin=”4873114357″ container=”” container_class=”” price=”All” background_color=”FFFFFF” link_color=”000000″ text_color=”0000FF” /]

 

■動作環境

  • Linux 2.6 + (チュートリアルシナリオでは CentOS 5.2)
  • gcc 4.0 +
  • pkg-config
  • python 2.6+ and msgpack-python
  • libmsgpack
  • pficommon – must be configured with msgpack enabled.
  • re2
  • ux-trie / MeCab (optional)
  • ZooKeeper server and C client (optional, for multiple processes)
↑ Mecab があるあたりから日本語で形態素解析も含むビッグデータに対応しているのかなと夢が膨らみます。
■導入手順
http://jubat.us/tutorial.html チュートリアルの通り
■学習手順 (基本的にチュートリアル通り)
学習器に学習させる場合は、 train というAPIを利用します。
■分散処理
Jubatusでは、Zookeeperを用いて複数のサーバプロセス間を強調させることで、分散処理を行うことが出来ます
■クラスタ構成
Jubatusは各種プロセスを一括管理するための仕組みを備えています。
取り急ぎここまで。
以上
斉藤之雄 (Yukio Saito): Global Information and Communication Technology OTAKU / Sports volunteer / Social Services / Master of Technology in Innovation for Design and Engineering, AIIT / BA, Social Welfare, NFU / twitter@yukio_saitoh

This website uses cookies.