Hadoopは統計の基礎を無視しているのか?

http://ascii.jp/elem/000/000/687/687170/

こういう塩梅になった。これでも一応、最初に上がってきたインタビュー記事を訂正して、この状態という感じです。最初のほうはもっと派手だった。まー、さすがに読み手で不快に感じる人もいるだろうし、とはいえ、話したことをつないでいる部分は確かにあるわけで、はてどうしたものかな・・・と思っているうちにリリースになったというのが実態ですね。

えっと、まず読んで不快に思った方は確実にいらっしゃると思うので、その方たちにはお詫び申し上げます。すんませんでした。

その上で真意を書いておくと・・・

まず、Hadoopは統計の基礎を無視しているのか?という問題ですが、基本的にHadoopのBIで飯を食っている人は、いわゆる「データ・サイエンティスト」という職種の人たちにあたる方たちで、当然、統計のプロだ。当たり前の話だが、大抵のHadoopのBI利用は統計の基礎と応用を利用しなければ、使いこなせない。実際に、HadoopをBIのツールとしてちゃんと使いこなしている人たちは、普通に手足のように統計を使う人たちなわけで、要するに別に統計の基礎は無視していない。問題だと思うのは、残念ながら現在のHadoopの利用は、力業の単純集計に使われることの方が多く、いまの論調は「単純に全件集計ができるようになったので、今まで見えない傾向が見えるようになりました」というコンテクストも目立つのも事実です。これは違いますよ、ということです。

以下、思っていることを順番に

1)まず、たいていのちゃんとしたSEは最低限の統計の知識は持つべきだと思う。
Hadoop云々という以前に、SEであれば、統計の基礎は無視はできない。業務系のアプリエンジニアも同様だと思う。最低限の統計の知識がなければ、議論にならないし、実際、本も論文も読めない。

2)機械学習に大量のデータを食わせる手法が現在のところはHadoopBIの王道だと思う。
んで、これは間違いなく統計等のノウハウの塊になる。これはそうでしょう。異論はほとんどない気がする。それで、機械学習を利用した実績や効果は着々とつみあがっているわけで、その結果、今までできなかったことができるようになっているというのは事実だし、ここがビッグデータ云々やHadoopの正しい使い方の一つではあると思う。

3)とはいえ、実際に統計で食っている人たちが自分たちのことを「データ・サイエンティスト」と自称しているのは(あまり)聞いたことがない。
むしろ、「俺は”データ・サイエンティスト”ですから!」って言っているひとは逆に皮肉で言っているケースのほうがおおいと思う。実際そーなんだから仕方がない。個人的には、そもそもデータ+サイエンティストって、冷静に考えると意味がよくわからないわけで・・・語感的には一時期の「エヴァンジェリスト」に近いな〜とは感じてはいます。

4)実際のHadoopの利用で多いのは、データの集約やクレンジング処理だと思う
これをもってBIか?というとそうではないでしょう、と思います。とはいえ、現状の日本でのHadoop利用の大半はこの利用がおおいと思います。少なくとも、自分で耳にする案件はかなりこちらに属する。むしろ、ちゃんとした解析の仕事の大半はHadoopはあまり使ってないように聞こえますね。一部利用してますというケースの方が多いと思います。

5)「奇跡」は起きているのか?
正直、マスコミや、一部のジャーナリスティックの言説の、「言い方」には辟易しています。あとは、いまどき無条件の単純な進歩史観的な発想もどうかと思う。浮かれ騒動の挙げ句の果てが個人情報問題になっているといい加減気づいた方がいいと思いますよ。

6)インタビュー記事とか、もういい加減にした方がいいわね
とか思いましたよ。本当にビッグデータってあるのか?っていうのが連載の趣旨の用で、それは確かにそうですが、ちょっと煽りすぎだよね。

あと言葉的に、「ビッグ・データ」とか「データ・サイエンティスト」って言い方的にセンスねーだろ、とか思ってます。

お騒がせしてすんませんでした。