DougCuttingの講演から思うことのメモ
一応感想というかメモ書き
・DougはApacheのChairmanであり、ポジション的には
Clouderaのビジネスを語る立場ではないので、
普通にテクノロジーとして意見を聞くべき
・ビジネス的には仮にC社が買収されたとして
本家がApacheで保護されているので大ジョブというスタンス
(この辺は割り引いた方がよいとは思うが)
・ということはスペックリーダーはClouderaではなく
Apache本家とみた方が妥当。新規の開発はほぼApache中心で
Clouderaはパッケージ担当に近い。万が一に備えて
エンジニアも心情的にはそっちに振っているとみた。
・ApacheHadoopは「インフラ的な役回り」に行こうとしてる。
YARNやMapReduce2.0を見ればわかる通り、
ResourceManagerのワードが山ほど出てくる。
これは「ノード処理はすべて引き受ける」という風に見える。
そのうえで、走るパラダイムは
MapReduceに限定しない、ということだと思う
・よって、MapReduce2.0といっているが、
基本的にMRではない。分散リソース管理OSとみてよい。
その上でたまたま昔のMRが走るだけ、という意味で
後方互換維持。
もちろん別のパラダイムも走りますよ。
・基本軸は以下になる
Core=ResourceManager+パラダイム管理的なもの
多分job管理(まぁTask群管理か?)だと思う。
んでフレームワークが選べる、
MRとかいろいろそのほか、ありますよと。
永続化層=HDFSみたいなもの→基本HAに振る方向で決まり
DB系はHBaseで進める。
あとはAvroで押しまくり。
・個人的にはBSPを押さえるべき
とくにGiraph
http://incubator.apache.org/giraph/
以上メモ書きです。