DougCuttingの講演から思うことのメモ

一応感想というかメモ書き

・DougはApacheのChairmanであり、ポジション的には
Clouderaのビジネスを語る立場ではないので、
普通にテクノロジーとして意見を聞くべき

・ビジネス的には仮にC社が買収されたとして
本家がApacheで保護されているので大ジョブというスタンス
(この辺は割り引いた方がよいとは思うが)

・ということはスペックリーダーはClouderaではなく
Apache本家とみた方が妥当。新規の開発はほぼApache中心で
Clouderaはパッケージ担当に近い。万が一に備えて
エンジニアも心情的にはそっちに振っているとみた。

・ApacheHadoopは「インフラ的な役回り」に行こうとしてる。
YARNやMapReduce2.0を見ればわかる通り、
ResourceManagerのワードが山ほど出てくる。
これは「ノード処理はすべて引き受ける」という風に見える。
そのうえで、走るパラダイム
MapReduceに限定しない、ということだと思う

・よって、MapReduce2.0といっているが、
基本的にMRではない。分散リソース管理OSとみてよい。
その上でたまたま昔のMRが走るだけ、という意味で
後方互換維持。
もちろん別のパラダイムも走りますよ。

・基本軸は以下になる
Core=ResourceManager+パラダイム管理的なもの
多分job管理(まぁTask群管理か?)だと思う。
んでフレームワークが選べる、
MRとかいろいろそのほか、ありますよと。
永続化層=HDFSみたいなもの→基本HAに振る方向で決まり
DB系はHBaseで進める。
あとはAvroで押しまくり。

・個人的にはBSPを押さえるべき
とくにGiraph
http://incubator.apache.org/giraph/

以上メモ書きです。