CDH4説明会に行って参りました。

CDH4説明会に行って参りました。

日時:2012年7月6日(金)
場所:ベルサール八重洲
タイトル: 進化するHadoop:CDH4とCloudera Enterprise4.0のご紹介

アジェンダは以下の通り。
18:30 開場
19:00 開会のご挨拶(ジュゼッペ小林さん)
19:10 CDH4とCloudera Enterprise4.0(川崎さん)
エンタープライズにおけるHadoopの標準〜
19:50 CDH4はなぜエンタープライズに適しているのか(嶋内さん)
〜新しく導入された技術から読み解く〜
20:30 懇親会
21:00 閉会

以下、内容と感想をまとめておきます。スライドはあとで上がるそうなので、セミナーの詳細はそちらを参考にした方がよろしいかと。

あとはメモも上げられているので、こちらを見ると詳細がわかるかと。
http://d.hatena.ne.jp/garage-kid/20120706/CDH4introduction2clouderacertificated?utm_source=twitterfeed&utm_medium=twitter

自分なりの印象とかを書いておきます。

■ジュゼッペ小林さんの挨拶えっとClouderaジャパンの社長として、挨拶は割と久しぶりに聞いたというか、今までまともにやったという記憶がなかったので、それなりに興味深かったです。いろいろ思ったのは以下3点

1 「Hadoopのエンジニアが足りない。」
年収20mですぞ、という煽りも入っていましたが、その場所にいた社員の方の年収が20mに見えないので、まず御社社内でも当然20mだよね?という突っ込んでいいのかどうか迷う内容ですね。当然ですが、コミッターならともかく、ただ使えます的な能力だけで高額な収入というのは、普通はないし、あったとしても只のバブルで終わります。

高い年収は高い市場価値を生み出せるということが前提であり、むしろHadoopをちゃんと使って、かつビジネスを組み立てて、かつ実際のレベニューまで結びつけた人が年収20mであれば、そうだよな〜、と思うわけです。

2 「実は製品の説明をちゃんとするのは初めて。」これは確かにそーなんですけどね。正直、今頃までやってなかったというのはいただけないな〜と思いました。最近ではさすがにクラスター導入や運用の話もちらほら聞くようになって来ているので、Hadoopでも商売になってきているというのが実態だとは思いますが、米国ほどではないでしょう。

それに輪をかけてClouderaジャパンの日本でのプレゼンスは、少なくとも米国ほどのプレゼンスはないはずです。その辺の自覚があるんだか、ないんだかよくわからんのですが・・・日本法人ができてほぼ半年ぐらいのはずで、それまで公式に自社商品のセミナー等のプロモーションをやってませんでした、と言うのはセールス的に相当センスがないと言わざるを得ないです。

外資系のイケイケなクラウドベンダーのように、定期的かついろんな場所やイベントで、やってるぜヒャッホーなアピールはやっておかないとまずいとは思います。プロダクトやサービスをアウェイなところでを売るなら、そのくらいやらないと厳しいかと。日本のマーケットは閉鎖的です。とりあえずHadoopのマーケットメイクはCloudera日本法人のミッションの一つではないかと思いますし。

3 現状のClouderaの状況。
「従業員280名で、5名pre weekで増加中という急成長。やっと企業としての形ができつつあるという状況で、日本法人も現在の5名から7名に増える予定。」

成長の良い点はやはり仕事に厚みがでるということでしょう。最終的には大きなミドルはテストを含めて人数勝負というところはあるので、その点は確実にプラスにはなると思います。

ただし、急激な組織の拡大は、普通はかなり歩の悪いの博打になりますね。特に技術的な側面は質が一様に悪くなるのは否めないでしょう。あとは食うために仕事をする悪循環になると厳しい。おそらく現在は、有力なスポンサーもついて、ファンドも相当お金も入れているので、その辺は問題ないでしょう。ただし、金が切れ始めると凄い勢いで人が抜けるのも米国の特徴なので、Clouderaも「走りきるまでは息をしない400m走」にすでに突入しておるな、という印象でした。

■川崎さんからCDH4のupdateの概要とテーマについて。

まず技術的なフィーチャーの解説は後半の嶋内さんに任せて、とりあえずマーケティングのポジションを明確にしている点は、経営的には好感を持てました。

明確にメッセージとして、流していたのは「エンタープライズの要件」だったと思います。以下6点

1.統合
2.セキュリティ
3.スケーラビリティ
4.高可用性
5.設定・構築の単純化
6.グローバル・サポート

まず昨今のエンタープライズじゃないOSS系の人達の「エンタープライズですから!宣言」には、個人的には若干へこみ中なわけでして。そういう意味ではClouderaとしては、要は言外に「現在のApacheHadoopは、そのままではエンタープライズでは使えない」と言っているも同然なので、それはそうだな、という逆の意味の安心感もありました。

特に、ポイントについては異論はなかったですね。技術的にちゃんとできているかどうかは、確かに検証の必要性はあるとは思いますが、問題意識を明確にしているのはいいことではないかなと。
んで、内容は以下。

■嶋内さんのCDH4の解説とCMの解説まー、これを聞きに来たわけですが、それなりに収穫はありました。

以下、自分的にポイントだったところのみ

・HAについて
基本的にはrolling updateを想定している仕組みで、そもそもHadoopは高可用性を最初から想定している、という感じでした。実際、ペタクラスのビッグデータでのHadoopのVupはどこも苦労しているわけで。そういう方面には朗報なわけです。

よく見ると、F/O時点での受渡用のeditsをNFSに書いているわけで、これは零点なわけです。rolling update目的なら確かにNFSでいいのですが。・・・共有ストレージ前提もちょっとアレですが、さらに普通にRDBMSに書けばいいじゃん的な発想もないわけです。一応、この辺はpluggableにしておいた方がいいのかなとは思いましたが・・・。ま、基幹処理では、当面このHAはないわ、という結論ですが、それはそれで良いかと思います。トラブル時になくなってしまいますがな。

追加情報)@shiumachiさんから情報をいただきまして、この部分はどうやらpluggableになっているようです。なので、たぶん今後はちゃんとDBに書き出すという方式や、いろいろな手法が導入されるのではないかと。

・セキュリティについて
HBaseのデーブルとカラムのパーミッションと、スケジューラーのACLでした。マルチテナントとか考えている人達からみると、残念感が強いですが、当面はこんなもんかと。

・拡張性
「一押しはMR2(YARN)とHBaseのコプロだぜ!ヒャッホー!でも両方非推奨ね!ヒャッホー!」という見ようによってはかなりアバンギャルドな内容で、おもしろかったです。確かに両者ともに、ちゃんと動けば強烈に魅力的なプラットフォームにはなるでしょうし。そう見ている人が大半です。

YARNはもう少し枯れてきて安定すれば、MR以外のアルゴリズムを利用して業務系のフレームワークを作る可能性もあると思います。

また、HBaseのコプロは、まともに動くのであれば、ちまたのCEPは全部駆逐できるぐらいの仕組みをつくることができます。トリガーはもちろん、エンドポイントも強力で、バルク処理もできます・・なので、なんでも来いな感じですが、当然UDFなので、きっちりミドルで隠蔽しないと超絶簡単にお亡くなりになるかと。なのでかなり非推奨だぜ!ヒャッホー!というのはよくわかります。

・ClouderaManager(以下CM)の解説

まず、結論的な印象をいっておくと、よかったですね。とりあえずHadoopの実運用をやっているときに引っかかったところは、もれなくカバーしているのは間違いないと思いました。

Hadoopでのトラブルは自分で経験する羽目になっているので、まぁ確かにそうだな、と思う機能はすくなくなかったです。何げに今回の解説への出席にはエンタープライズな人達の方が多かった印象なので、似たような感想を持った人も多かったのではないかと思いました。

特に「設定」の部分は、100台以上の運用をしているところは注目すべきですね。いわゆるちまたのHadoop本の大半や、トラブルの大半が設定がらみであることを考えると、地味ですが、ある意味必要性が高い部分になります。そんな仕組みは世の中にいくらでもあるじゃん、という話はわかりますが、環境依存の部分や経験知的なものは馬鹿にならないと思います。

(尚、この辺は二次会の飲み会で話に出たのですが、Hadoopの設定paramはMapRがそれなりに手を打っていて、やばいところはある程度修正してあるのに、Apacheとかアホじゃないの?という話があって、これは、とある事情でこうなっているですよという話なので、当分、このまま説が濃厚ですね・・・)

あとメトリックスの収集・paramの配布・デプロイ、ログの収集は独自のエージェントをばらまいており、コマンド実行もできます的な話でした。この手の奴は作っては玉砕の屍累々なので、ちゃんとやってます的な話は歓迎です。Hadoopはノードをあるタイミングで酷使するので、その時にエージェントが悪さをして、ノードダウンとか結構ありますので、とても素人がつくるものではないですね。

ま、概ね、いいじゃないかね〜、という製品内容ではなかったかと思います。自分のところの処理では大抵は20-30ノード以下なのでちょっとすぐにというしろものではないですが、100を超えるようなものでCDHを使うのであれば、まずは検討した方がいいかなと思います。

あと追加情報

・嶋内さん、片手骨折(に近いねん挫のようです)。まじでぇ・・・お大事に
・某HBaserのHBase認定試験突破は日本初だそうで。・・・おめでとうございます。そもそも受ける母集団が(ry
・ほむほむさんの二次会での切れっぷりがw。

そんな感じ