来年のHadoop

Hadoopアドベント・カレンダーの多分最終日のはず。
せっかくなんで、来年の予想でもしてみようかと。

日本の話です。世界のことはよくわかりません。本当のことは、日本には伝わらない(表向きの話はともかく、現状ではVCあたりの外野の方が発言力があると思うし、向こうでも、その辺の正確な情報は伝播してる気がしません)と思うので。とはいえ、日本のHadoopマーケットは、それなりわかっている(というか、わかっていないとまずい)感じみたいなので・・・勝手に、来年のHadoopとか予想します。外れたら焼き肉おごります。

1 大量データ処理でのデファクト ・いわゆるWeb系ではつかっていないところは一社もなくなる
特にレコメンデーションエンジンあたりは、もう普通に実装して使う。ただし、それ以上のものは出ない。集計処理と推論をうまく利用したレコメンデーションエンジン(とその亜流)、従来からのフィルタリングのエンハンスでの利用で普通に使われる。使い方的には、その辺でちょっと頭打ちになる。実装は、自力派とベンダーお任せ派とAWSの3っつが潮流になって、多分自力派は運用できなくて相当数が玉砕する。その一方で、従来のように手足のようにちゃんと使う人たちがそれなりに出てくる。三つのなかでは、個人的にはAWS系がもっとも効率が良いと思いますよ。まじで。

2 ディストリビューションの多様化Apache (Horton)
・CDH (Cloudera)
・MapR (EMC)
Windows Hadoop (MS)
IBM

すくなくとも5っつのプラットフォームがそれなりに出てくる。

いずれにしても、マーケットはエンタープライズ主導になる。Web系のBIとでは動いている金の桁が違う。
エンタープライズでの本命はMapRになる。やはりEMCの営業力は凄いので、まともにローラー始めたら、市場を席巻すると思う。

エンプラ市場でみると、OSS系では日本では下手するとApacheプロパーの方がインストールベースでCDHを抜くかもしれない。1.0.0にバージョンを決めたのは普及という点はプラスに振れる。CDHについては、日本法人の現状のオペレーションが微妙で、現時点で先行の貯金を使い果たした感じがする。(ここ一年でパートナーがNTTDの一社だけで、ちょっとプレゼンスががが。個人的には@shiumachiさんには、日本人Hadooperとして超頑張ってほしいのですよ。頑張れ!)Apacheでは、Hortonがスペックリーダーな感じになってきているので、いかなClouderaとはいえ、かなり苦戦必死。「本家の看板」は日本ではApacheの方になってしまうわけで。

ダークホースはMS。Dryadをきっぱり切ったことが、良い方向に進む可能性大。やっぱりwindowsで使えたら使うのが日本人というか、日本の会社です。IBMが結構強い説もありますが、それは従来のIBMだった場合の話だと思う。現状では失速気味。特に値段。

まぁ要するに、CDHがデファクト状態ではなくなって、本格的な競争が始まりますよ。という感じかと。

3 センサーデータでの利用が真面目に検討され始める特に、日本の「過剰品質な組み込みデータ収集」は今まで真面目に使えてません的な扱いだったので、これをどう分析してやろうか?的な話が出てくる。特に、センサーデータ系は組み込み系との接続になってくるので、技術的な問題よりもベンダーの組み方の問題がクローズアップされる。

技術的には、センサーからのデータ収集の次にフィードバックをどう戻すか?という事が当然議論になるので、よりリアルタイム性が求められる。同時に、CEPの悪夢再び的な話も出てきて、混乱する感じになる。そもそもHadoopスループットを追求する仕組みなので、レイテンシーの要求は筋が違う。方向としては、オレオレHadoopはリアルタイムで速いもんね的な、微妙な仕組みと、Hadoopで行きますってスタートして、結局使えませんでしたという残念プロジェクトが割と目に付くようになる。

ビジネス的には、なんかできたらいいな、は大抵は全部駄目が相場。ただし、少数ではあるが、おそらく単機能で、割り切ったニッチソリューションで他を圧倒するところが出てくると思う。ここが勝ち組。「わかりやすさ」は武器のはず。キャッチオール組は全滅。

4 地味な部分の連携機能と永続化層に注目があつまる連携については、正直、今までは本当に「なんちゃって連携」がほとんど。基本、自力でつなげが鉄則になっているので、Mな人しかとてもやれてない。職人依存度が強い。この辺をちゃんとどうしようか?という話が常にじわじわ燃えている感じ。今のままだと不完全燃焼で一酸化炭素中毒。パフォーマンスに倒す方と、安全に倒す方の2方向出てくる。今はログデータの収拾で、どうすれば良い的な話が多いが、そのうち構造化データも取り込みたい、という話が出てきて、Hadoopって実は構造化データに恐ろしく弱くない?って、今頃気がつく人が出てくる。この辺は、Hadoopのあり方にも関わる。

永続化層については、安全性・使い勝手により注目が集まるだろう。MR2.0系については、上位のアルゴリズムよりもむしろ永続化層のHAあたりの方が注目される。分散ファイルシステムHDFSAPIを使ったものが、割と目につくようになる。単純な永続化だけではなくて、ネットワークとこみで議論されるようになる。何がデファクトになるかは、市場次第。

5 OSSの意味付けが希薄になる。エンタープライズ」の意味がクローズアップされると思う。今の生Hadoopは、とてもエンタープライズとは言えない。にもかかわらず、Hadoopエンタープライズという声が大きいが、それはポジショントークとわかって言っているはず。(か、または本当に何も知らないだけの可能性もある。)「エンタープライズなら、これできろ、あれできろ」って言われて、「いや、HadoopOSSなんで、自力でやってよん」って言うと、「は?」とか言われるわけです。そもそもBIは「本来的にエンタープライズではない」ところが、ボタンの掛け違いの始まり。

特にエンタープライズだと、ベンダー主導になるので「自分でなんとかするOSS」は影を潜め、「プロダクト色の強いOSS」に軸が移る。各種のディストリビューションにも、同様の要求が突きつけられる。

6 トラブル多発Hadoopは敷居をさげた。その分、マジョリティーがくるようになった。当然の結果、百鬼夜行の悪夢再び。うほほ、あんた何してんですかああああ、的な軍団がどんどん出ます。トラブル出ます。まぁ、世の中の常なので。これを含めて「普及」というのですよ。「ほんとに使えんのか?これ」「あ、一応OSSですから」「あう。でもお前らエンタープライズって言ったじゃん?ほーむぺーじに書いてあるぞ」「wwwwwwwwww」こんな会話が各所で聞かれる。

7.ビッグデータバブルの残り火が焦点まぁ要するにビッグデータ・バブルが弾けます。ただし来年の後半までは持つと思う。ある程度お金がはいるから。とはいえ、2012年後半はちょっと失速気味になる。だってお金にならないもん。延命している間に別のネタがでるかどうか?がポイントになる。CRMとかSCMとかは2-3年もったけど、ビッグデータはちょっと賞味期限切れが早いかも。

8「結局何に使うのか?」問題の再燃周りから、また同じ事やってのか?とか思われる。いや、まぁ、プロダクトアウトですんません。これが日本のITなんでw。

とはいえ、来年は、「分散処理?あ? Hadoopのことでしょ?そんな特別なことでもないでしょ」という言葉もきかれるようになるでしょう。これがいかに天地驚愕なことか、冷静に考えればわかると思います。「イノベーションというのは、起きてみると当たり前になっている」ということがわかるのが、2012年のHadoopの本質でしょう。ま、道はハードですが、皆さん頑張りましょう。

本年は大変お世話になりました。来年もよろしくお願いいたします。