Entries

あんちべ『データ解析の実務プロセス入門』

データ解析の実務プロセス入門
データ分析の独習する人のためのとても良い本。データ分析のプロセス全般について学ぶことができる。単純に分析技法についての本ではない。もちろん探索的データ分析やデータビジュアライゼーションの話、KH-coderを使ったテキストマイニング、Wekaを用いたクラスタリングや決定木の話などもある。この本のポイントは、やみにくもにデータ分析をするのではなく指針が必要であるとか、何よりも良いデータが必要だといった発想にある。

「高度な分析手法や高価な分析ツール、ビッグデータよりも、目的を明確にしその目的を実現でき料にデータを取得するための分析計画をたてるプロセスが、データ解析でもっとも重要な部分」(p.233)という指摘には賛成。こうした計画や指針なくしてデータ分析を行うことは、夜道で落し物をした時に、探しやすい電灯の明かりのある下でのみ探すようなことに帰してしまう(p.22)。データ分析は試行錯誤であり、失敗を繰り返して進むものだという話は、何度も出てくる。

とはいえ指針としてのKPI設定の難しさもある。よいKPIの性質として、分かりやすいこと、操作可能な変数であること、KGIと密接に結びついていること、変動の説明が一意的であること、時系列で見て安定していることが挙げられている。そしてこの観点からはDAUやPVは使えないとされている(p.152-160)。KPIに基づく運用を行うためのミーティングの話などもある点が類書と異なるだろう。

また良いデータを得るための章は本書の素晴らしいところ。特にアンケート設計に詳しく、かなり参考になる。ダメなアンケート設問がいかにダメな結果を生むことか。アンケートサイトなどを見ていると、本書に書かれているポイントからするとまったくダメな設問も本当に多く見られる。設問が誘導的にならないようにとか、回答者に多大な負荷を与えないようになどのポイントも大事だが、消費者にとって良いハンバーガーと欲しいハンバーガーの違いなど(良いハンバーガーとは例えばヘルシーなものだが、欲しいとされているものはガッツリしたものだとか)、考えるポイント満載(p.74-89)。さらに、良いデータを得続けるためには分析ツールよりもむしろ、バージョン管理などの管理ツール(wikiやgitなど)の方が大事という指摘もある(p.103f)。

タイトル通り、データ分析の実務面を解説し、類書の紹介などでその後につながるように書かれている。挫折しがちなポイントを前もって知っておくことによって、うまくいかなくても諦めないようメッセージを伝えている。帯にあるように、自分のような周りに頼る人がいなく孤独にデータ分析に挑む人にを勇気づける良書。読み返さねば。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/763-5840b4aa

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する