Entries

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/524-7d4a0ecd

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

ビル・フランクス『最強のビッグデータ戦略』

最強のビッグデータ戦略最強のビッグデータ戦略
(2012/12/13)
ビル・フランクス

商品詳細を見る

ビッグデータについて書かれた一般向けの本だが、邦題とは違ってあまり戦略の話はない。この本はビッグデータを典型的に用いるような先進的分析(advanced analytics)について、それがどういうものを目指しており、どういう人達がそれを行い、その人たちが活躍できるためにはどんな資源や文化が必要なのかを書いている。つまり、先進的分析を行う人々を外から眺め、それらの人たちへの理解を深めようとする本だ。アナリストたちはどんな人たちでどんなツールが必要か長々と書いている(p.212-299, 338-413)、これは正直どうでもいい。

ここで先進的分析とは、規定のBIツールによるレポートでは出ない情報を掘り下げること(p.314-317)とされている。つまり、レポートにおいて異常値が発生したり、レポートでは見られない情報を得たいときに行われるのが分析である。優秀な分析とは何かがGREATでまとめてある(p.312-314)。それはつまり、ビジネスニーズに導かれていること(Guided)、ビジネス上の問題を解決に導くような意味のあるものであること(Relevance)、他人に説明して分かってもらえること(Explainable)、他人を具体的な行動に導けること(Actionable)、タイムリーであること(Timely)。この5つのまとめ方は良いのではないか。

そうした優秀な分析をもたらし、そこからイノベーションを起こすのが先進的分析の目的である。そのためには分析チームに柔軟性とリソースへの自主性が必要であり、もっとも優秀な人を集めなければならない(p.437f)。それはどんな分野でもほぼ同じだろう。イノベーションを起こす企業文化として、(1)旧来の殻を破ること、(2)一つのイノベーションから波及効果を追求すること、(3)リーダー自らビジョンを示し、全員でイノベーションを目指すこととしている(p.454-481)が、これもやや凡庸である。

この本の一番の問題は、著者はteradata社の分析責任者であることからも伺えるが、従来のデータウェアハウスの発想の延長上ですべてを考えていることではないか。テクノロジーとして企業全体のDWHやEADS(Enterprise Analytics Data Set)が理想と捉えている(p.431f)し、ビッグデータも所詮はデータであり、従来のデータ分析の延長線上にあると述べている(p.44-46, 50f)。そうしたデータを扱う分析もSQL言語に基づいている(p.174f)のだし、分析を支える超並列処理システムの固有言語もSQLである(p.178)。ビッグデータを扱うにもETL、すなわちExtract、Transform、Loadが強調されている(p.62f)。

穿った見方をすれば、それは従来のDWHの会社からの見方だろう。ビッグデータは従来のDWHで扱うデータとは違うばかりか、テクノロジーとしても別種であるという述べることは自分の首を締めることになるからだ。ビッグデータが従来の延長線上なのか別種のものかはどちらを強調するかによる。ただ著者の立場からすれば、MapReduceについて言及しても、それは旧来のシステムを保管する位置付け(p.198-201)であるし、結局やっていることはETLであるし、その割には未成熟だという評価になる(p.206-211)。

だがこれも著者が書くように、ビッグデータのビッグさは変化するものだから、分析する企業の能力も常に改善が必要(p.69-72)である。つまりビッグデータが従来と比べて何がビッグなのかというと、この本の範囲ではスケーラビリティを気にしなくなり、ビッグデータにはゴミがたくさん含まれる(p.42)ということが大きい。分析に役立つデータはわずかであり、データの性質を理解し、価値ある構成要素を見つけるのが大事(p.55-61)。そこで問題になるのが、非構造化あるいは半構造化されたデータであり、ビッグデータはこれらのデータが鍵である(p.118f)。そしてまさに、MapReduceは非構造データを扱うに適したもので、大量のゴミデータが含まれるときに使えると評価している(p.206)のは著者自身である。「新しいビッグデータソースに旧来のテクニックをそのまま使おうとしてはならない」(p.483)と書いているが、それこそ本書自身のアプローチではないかと、読んで抱いた感想である。

もう一点挙げるなら、ビッグデータの分析におけるリアルタイム性への目配せがあまりない印象がある。アナリストたちがデータを本番環境とは区別される所で(同じデータベース上にあるかどうかは別として)、データが収集されたあとになって分析している静的なイメージがある。データをリアルタイムにどう生かしていくか、という話について考慮されているのかは見えない(例えば、機械学習やニューラルネットワークの話に代表されるようなもの)。そういうモデルを作って本番環境に展開するのだ、と言えばそれまでかもしれないが。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/524-7d4a0ecd

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。