Hadoopの現在

もともとHadoopは注目の仕組みであったけど
ここに来てさらに大きな流れになろうとしてる。
各種のイベントや記事にしても大型のものが多く
一種のHype状態になってきている。

Hadoop Japan Conference 2011 Fall
Hadoop Conference Japan 2011 Fall Tickets, Mon, Sep 26, 2011 at 10:00 AM | Eventbrite
登録人数で1000人を超えている。

Cloud Computing World Tokyo 2011 & Next Generation Data Center2011
Apache Hadoop: A New Paradigm for Data Processing
http://www.idg.co.jp/expo/ngdc/2011/index.html
このイベントがあった週はDougCuttingのインタービュー記事が
各所にのった。

「次世代Hadoopの特徴は、MapReduce 2とGiraph」
http://www.atmarkit.co.jp/fjava/special/cloudera/01.html

日経コンピューターも大々的に記事を書いている。
ビッグデータ革命 | 日経 xTECH(クロステック)

そんな折に、日経主催のXdevでHadoopの話を
しなさいということで、引き受けて話をしてみた。
http://itpro.nikkeibp.co.jp/ev/xdev/index.html

まずは機会を頂いた日経の関係者様や、また、
かなり早口の話におつきあい頂いた出席者の方に
感謝申し上げます。ありがとうございました。

そんな状態なので、現状のHadoopの受容について
思うところをちょっと記録しておきましょう、
という趣旨。

Hadoop知名度はかなりのものになった。
すくなくともいわゆるNoSQL系のカテゴリーの
中では確実に群を抜いている。
NoSQLのDBを一つも言えない人でも
Hadoopの名前は知っている人も多いと思う。

本も出版されている。通称「象本」の
本家Hadoop本の翻訳も第二版になっている。
http://www.amazon.co.jp/Hadoop-%E7%AC%AC2%E7%89%88-Tom-White/dp/4873115035/ref=sr_1_1?ie=UTF8&qid=1316318371&sr=8-1
発売年度のオライリー社の売上のナンバーになったという噂まである。

また日本のオリジナルの解説書も出ている。
http://www.amazon.co.jp/Hadoop%E5%BE%B9%E5%BA%95%E5%85%A5%E9%96%80-%E5%A4%AA%E7%94%B0-%E4%B8%80%E6%A8%B9/dp/4798122335/ref=sr_1_2?ie=UTF8&qid=1316318371&sr=8-2
また、引き続き出版ラッシュは続くだろう。

MapReduceの解説本も出る。
http://www.amazon.co.jp/Hadoop-MapReduce-%E3%83%87%E3%82%B6%E3%82%A4%E3%83%B3%E3%83%91%E3%82%BF%E3%83%BC%E3%83%B3-%E2%80%95MapReduce%E3%81%AB%E3%82%88%E3%82%8B%E5%A4%A7%E8%A6%8F%E6%A8%A1%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%83%87%E3%83%BC%E3%82%BF%E5%87%A6%E7%90%86-Jimmy/dp/4873115124/ref=sr_1_3?s=books&ie=UTF8&qid=1316319523&sr=1-3
(これについては自分も関わっているので、どっかで解説かかんと・・)

1. 日本でのHadoopの受容のコンテクスト
自分の見るところ、まずはプレイヤーとしては
Web系と一部のインフラ大手企業が多い。
そして大抵の場合はインハウスだと思う。
基本的にはログの解析であり、それ以上ではないように見える。
実運用の大抵のケースは集計処理であり、
機械学習等の高度の利用はR&Dから
やっと本番稼働が緒についた頃合いと思われる。
これが2011年秋の現状でしょう。

この受容の方向としては、ほぼ米国を踏襲している。
言ってみれば「完全に予定調和的な流れに乗ってる」
とすらいえる。

前述の講演で非常に印象的だったのは、
冒頭で「Hadoopの説明を聞きたいひとは挙手してください」
といったところ、ほぼ満員だったにもかかわらず
一人もいなかった。

個人的には意外だった。

あの場所で「MapReduceを手で書いたことがあり、
またはPig/Hiveをプロダクションベースで運用している」人は
多分片手もいないはずだ。
にもかかわらず、
Hadoopの説明を聞きたいひと」が一人もいない。

これは、有り体にいうと、Hadoop
それ自体「製品」として認知されつつある
ということだな、とふと思った。
「製品」として認知されることの条件の一つは、
ブラックボックスでも構わない」ということが
一般に許容される、ということだと思う。

通常のOSS系のソフトウェアが一般に認知されるまでには、
その仕組みに対する興味が集中する。
そして大抵はそのまま終わる。
中身についての質問がでるうちは、まともな製品として
認知されていないということと、ほぼ同義だ。

「なんやらOSSHadoopっつーのがあって、
よくわからんが大きなデータが処理できるらしい」
という評価ステージは、よくも悪くも脱して、
別のフェーズに移行してると思う。
「中身の説明はもう聞き飽きた。そこは問題ないだろう。
何に使うのか、はっきりさせろ。」ということでしょう。
確実に別のフェーズに移ったと思う。

2. そしてアーリーアダプターは退場し、レイトマジョリティがくる。
これはつまり次は「お金のお話」のステージになるということだ。

技術の季節は過ぎ去り、政治の季節になる。
そういう風に思う。良いか悪いかは別だ。

投入される資金も確実に増えるだろう。
また商談や実際の導入事例も増えるだろう。
適切な環境が整備されるチャンスが増えると同時に、
無茶な使い方も増えるだろう。
あぁそんな会社でも使っているか?という話もでれば
なんだか意味不明なんですけど?という話も出るだろう。
俺ならもっと良いものが作れるという人も出れば
全く触ったこともないけど、やたら評論をする
耳年増な人も出るだろう。

そういう時代だ。

ただし、その一方で
Hadoopは次のフェーズに移行しつつある。
MapReduce2.0と称する、
まったくMapReduceではない仕組みだ。
この手の2.0シリーズはそろそろいい加減にした方がいいだろ、
とは思うものの、他に手もなく、キャラデザインの
センス・ゼロなHadooperの面目躍如でもあるか、
とも思う。
[MAPREDUCE-279] Map-Reduce 2.0 - ASF JIRA

よく見ると、分散一般のOSになろうかという
野望すら、うっすら見える。
もちろん、他の勢力も黙ってはいるまい。
このフィールドでのスペック争いは、始まったばかりであり
これからどんどん加熱していくだろう。
先鞭をつけたMesosも巻き返しがあるかもしれない。
http://www.mesosproject.org/

その他追うべきものは・・
BSP/Giraph/Hbase-CoProcessor
http://wiki.apache.org/hadoop/PoweredByYarn

・・・残念ながら日本企業の目はまるでない。
まぁこれは毎度のことなので今更ですが・・・

いずれにしろこの秋は、振り返ってみるとちょっとした
ターニング・ポイントになっていると思う。

3. 予防線

最後に、んで、君たちはどうするの?アーリーアダプターでいるの?
レイトマジョリティに加わるの?という、
かなり興味本位の質問がくると思うので・・・

基本線の再確認。

ステレオタイプな評価には興味はあまりないです。
Hadoopを頑張っているのも、必要だからやっているだけで
だから、周りが使う・使うには関係なく、必要であれば使う。
これはずっと言っているし、今後も変わらない。

そして、現在のHadoopは不完全な部分はあり、
埋めなければならないものはいくらでもある。
まだまだ、技術を利用することでできることはいくらでもある。
そしてそれが「実際に使われるように」やるべきことを
やっていくということかと。

分散環境のエンタープライズ適用は、それにより
ユーザー企業に様々な恩恵をもたらすと思っています。
他方、それほど万能でもない、という意識もありますけど。

まぁそんな感じですね。
とりあえず再確認まで。