Hadoop Conference Japan 2013で話したことと思ったこと

Hadoop Conference Japan 2013

http://hcj2013w.eventbrite.com/
先週終了。かなりの盛況で終わった感じです。まずは開催をサポートして頂き、相当の負担まで頂いたリクルート・テクノロジー様に感謝申し上げます。どうもありがとうございました。

さて、えっと、前回がそもそもいつだったのか、良く覚えてないわけで。2011 Fallだったような。
http://hadoop-conference-japan-2011-fall.eventbrite.com/
2011年の9月なので、1年4ヶ月ぶりという感じですね。Track数が増えて2から3で、会場もベルサールからビッグサイトになっていました。人数も1000人超になっております。

以下、感想文です。記録としておいておく感じで。

・内容で印象に残ったもの

・HBase~LINEのバックボーンで使っているという内容。そもそもユーザー数が1億突破しているという報告で、かなり大変そうな印象でした。
　DCのオンライン移行ほぼツール類は自分で準備した感じだとか、NN障害はまさかの自力rsyncだとか、なんというか気合いで乗り切る感、というかサービスの成長に周りを追いつかせるのに精一杯感がありまして。そのあたりが非常に印象的でした。よく「HBaseが火山」的な話は噂で聞いていましたが、印象としては、「まわり含めて全部火山」てな感じかと。むしろ、HBaseはなんとか頑張ってまっせ状態に見えました。よくも悪くもいろんな意味で凄いな、と。ただ、まーあのままじゃ、いつか酷い事故起こしそうで怖いですね。・・・

・TDの凱旋プレゼンおそらく、日本のITベンチャーの歴史に名を残した、Treasure Dataの太田さんのプレゼン。とりあえず、おめでとう！という感じ。話の内容は、TDでの、何をどうしている、というビジネスラインの話で非常に参考になりました。話の順序としては、「なぜクラウドか？」という話から始まって、ビジネス的には拡大路線中で月次で+40%のデータ成長の話へと続く感じ、さすがに凄かったですね。

　個人的にもっとも印象深かったのは「フォーカスポイントは分析ではなく、レポート」という点。これは非常に賛成です。多分、このフォーカスは正解で、ビジネスモデルとしてはシンプルな分だけ、非常に優れていることに加え、一回シェアをとってしまえば、競合優位が常に取れるという位置ですね。このあたりは、あまり注目されていないようですが、「ビックデータ」で踊っているメーカー系SI屋やマスコミ・評論家の人たちは、正座して聞くべきでしょう。別にTDに分析ができない人材がいないわけでもないですし、そもそも太田さんの前身がPFIだったことを考えれば、かなり意味深長です。要は「ITの使い方として意味がある」ということと「まずはビジネスになる」ということは必ずしもつながらないということでしょう。
　AWSのRedShiftと比べてどーなんだ、という意見はわりと各所であるとは思いますが、TDのこのモデルをみる限り、当分安泰だな、という印象でした。あとはもう進むだけで、一番難しい局面は乗り切ったように見えます。競合が出たとしても、追いつくのは難しいでしょう。

　とはいえ、一番印象に残ったのは、太田さん・古橋さんが一年前とまったく変わっていなかったというところかと。あれだけ成功路線に乗ると、ちょっと浮ついたところもでるのが人間ですが、そーゆーところもなく、立派ですね。TDの本来の強みは彼らの人間性ではないかなと思ったりします。

・・・
あとはカンファレンスでは、もっといろいろ聞きたかったのですが、なかなか時間が取れませんでした。途中でお客さんとMtgが入ったりで、一度ビッグサイトを離れて、自分の話す時間に合わせて戻った感じです。（まぁ、Hadoopを使おうというお客さんとのMtgですが、HCJにはお客さんは参加していないわけで・・・要するにそろそろエンタープライズの流れとコミュニティの流れは離れつつあるなぁ〜とも思いました。）

・しゃべった内容

　以下、自分のしゃべった内容です。セッション的には表がTDの古橋さんの話だったので、完全に裏番組状態で、マスコミ系の人は全部向こうにいったので、お陰でこちらは言いたい事を言えた感じでした。最近はパートナーさんとの手前、ポジショントークも多いので、今回は「実態を赤裸裸に」という感じで話しました。端から見ると毒は吐きまくりに見えたでしょうが、毒のない現実はありえないし、面白くもなんともないので、その辺は浅草・寄席的な感じで話しました。割と裏話もしたので、当然プレゼン資料やUstは現時点では非公開にさせてもらっています。とはいえ、こーゆーことは今回が最後で、多分、今後は公開の場所でいろいろdisるということはないでしょう。Hadoop関連はもうそういうフェーズは過ぎましたし、自分も立場的にいろいろ話せない状態になっています。

　まずはAsakusaの話が中心で、今の課題とその解決策をどうしますか？という話を中心に話しました。業務系の処理をHadoopでやってみるという試みは、ありがたいことに市場ではアクセプトされつつあると思います。業務系の利用の道が拓けているのは、Hadoopコミュニティにとってもいい事ではないかと思います。
　欧米の現状のようなビッグデータ一本槍だと、ビッグデータの実体のない日本ではバブルが潰れたときに、分散・並列の利用そのものが潰れかねないです。その意味では、コミュニティ的には、有効な技術をそれなりに残すということに意味があるとは思っています。今のマーケティングの流れは、従前のCRMのバブルそっくりなので、冷静に考えれば、どっかで潰れるかな、とは感じています。その時に、確実に残る流れにはしたいですね。（とはいえ、自分らはHadoopを使うことが目的ではなく、業務メリットが取れる技術の導入・展開が目的ではありますが。）

話した骨子は割と簡単で、大体以下の話になったと思っています。

1. 業務バッチ処理でのHadoop
　現在のところ、基本的に多重度で勝負する大規模バッチはほぼHadoopに軍配があがっています。今までは、原理的にできるとか、やればできるという状態だったのですが、ほぼ一年超の運用もやってみて十分実用可能な領域に到達していることもわかっています。この範囲では汎用機であろうと、RDBMSであろうと実運用レベルでのパフォーマンスでは、Hadoopの圧勝、ということになりました。結論はでています。
　ところが、現実は、バッチの「数」それ自体でいえば、多重度で勝負する大規模バッチよりも小規模・小データでのバッチ処理の方が多いですね。それも圧倒的に多い。勿論バッチの内訳としては、ワークロードそれ自体はヘビーバッチが重過ぎるで、そちらに目が行っていますが、実際にHadoopでのヘビーバッチが短縮されると、ショートバッチが目につくようになります。そこをどうするか？が課題です。

2. Asakusaの対応
これは「考えれば至極当たり前の合理的な対応」で解決します。すなわちショートバッチはRDBMS実行し、ヘビーバッチはHadoopで実行する、という風に制御して、動的にAsakusaが最適化します。（誤解のないようにいうと最適化の程度は制御可能です。ある程度、処理時間を読みたいケースもあると思いますので。）つまりAsakusaDSLでバッチを書いておけば、あとはコンパイラがよしなに最適化してくれる、という仕組みになります。
　元々、AsakusaはRDBMSとHadoopの連携がコアにあります。したがって、実行基盤自体は既にあるわけで、新規にRDBMSを追加してください、ということではありません。もともとあるRDBMSのその上でも処理を実行しましょうということに、表面上は見えると思います。実体としては、Asakusaが複数の実行エンジンとして、RDBとHadoopを従えるというカタチになります。

3. 意味付け
　これは会場では話さなかったけど、つまりAsakusaの位置付けを明確により上位に進めて行くということでもあります。今までのマーケットでの立ち位置は「Hadoopでバッチの開発・実行のためのミドル」ということであったけど、次は「Asakusaは業務系のバッチ処理の開発・実行基盤であり、複数の実行基盤の一つとしてHadoopを選択する」という意味付けになります。
　実は、もともとの出発点は後者であったのだけど、ビッグデータ・Hadoopのマーケティングのバズワードをうまく利用させてもらうために、程度の違いではありますが、前者でのメッセージを強く出していました。そろそろHadoopも名前だけは普及してきたので、もうそういうメッセージ性は薄めてもよい頃合いだと「個人的には」思います。ま、ただし会社の判断がどうなるかは別ですが・・

　もともと自分らは問題解決志向でやっているので、Hadoopで解決できないのであれば、他を使えばいい、というスタンスです。解決が優先であって、Hadoopを使うこと「それ自体」が目的ではありません。なので、他が頑張っているようなHadoop自体で低レイテンシー化には、実は否定的です。それHadoopではないでしょう。てか、普通にRDB使えばいいでしょう。なんやらそこそこに小さいデータサイズでもHadoop速いぜ的な動きも垣間見えますが、ま、RDBMで処理すれば良いかと。
　AWSのインスタンスや最近のサーバースペックも見れば分かるとおり、単ノードに搭載できるメモリー量は楽勝で100Gを越えてきています。そのうち普通に1Tになるしょう。そのレベルの「ビッグデータ」、つまりTバイトアンダーのデータサイズで、MPP系がいくら頑張ったところで、RDBには勝てないでしょう。

3.運用の強化
それから、実運用上の運用基盤の強化ですね。Asakusaバッチで、処理を途中で止める、また止めてところから再開する、といった「普通にできないとまずいこと」を普通にできるようにしましょう、という話です。BI系だとクエリー投げて、駄目なら最初からでなんとか運用できますが、業務系だとそうは行きませんからね。まー、地味すぎてあまり目立たない感じではありますが、何気に結構重要だと思っています。

概ね、以上のような話かと。

・ざっくり感想ですが全体的にまーそれなり盛り上がってよかったな〜と。最初のキーノートの開始時点での人手の少なさはヤバい感がかなりありましたが、最後は後ろで立っている人も出ていたような感じです。とはいえ、今回がピークなような気もします。今後は日経さん主体の「商売モード全開、ポジショントーク、マーケティングワード、ビッグデータ感満載」のエンプラ・セミナーが各地で開かれるでしょうから、エンプラ系の人はそっちで話をするでしょうし、コミュニティ的にはこれ以上の成長はまた違った話になってしまうかと。
　ま、ぶっちゃけ現行のHadoopでは、もう技術ネタはないっすよw。本も沢山出てるし、聞く事ないでしょ・・・Hadoopもどきなものはいくらでもでるでしょうが、それはそれで別で内輪でやるネタかと。

そんな感じ。