Entries

あんちべ『データ解析の実務プロセス入門』


再読。データ分析のプロセスについて入り口から平易に書いている良書。タッチは軽いながら、細かいポイントまでしっかり書いてあるので、初学者に勧められる。数式も少ないところも初学者にはよいところだろう。著者の仕事柄か、アンケートなどの社会調査データとWeb系のデータを中心とした記述。例えばアンケートの設計や回答の処理にとても詳しい(p.74-93)。またWeb系の話では、DAU(Daily Active Users)はCMを打てばすぐに変動してしまう、安定しない指標なので、KPIとして設定するのは好ましくない、など(p.155f)。

データ解析者に求められるのは、個々のタスクのエキスパートとなることではない。「データ解析者に求められるのは、すべての分野を自力で成し遂げられるようなスーパーマンとして振る舞うことではなく、データ解析に関連する全プロセスの監督車となること」(p.21)だ。実際のモデル推定だけではなく、ビジネス課題の設定や人を動かすことなどを含めてデータ解析のプロセス。データ解析とは何よりも意思決定を支援するもの。解析の結果から施策を提言する場合は、施策の効果、コスト、リスクを入れるべきで、特にリスクを外してはならない(p.164)。

データ解析は試行錯誤を繰り返すプロセスだ。まず30分だけ分析を行ってみてその知見を収集する。30分で新たな知見が得られなくなったら分析をストップするという経験則が書かれる(p.39)。データは、分析の目的に合っているかどうかの妥当性と、データが事実に対して偏りや歪みを持つかという信頼性の二軸で評価する(p.54-59)。ここはあらゆる分析の根本前提であり、議論を尽くしている。信頼性を確保しようとして欠損値を回帰分析で埋めるのは、線形モデルの仮定が多く、勧められるものではない(p.90)。

データについては管理の重要性も述べられる。確かに様々に前処理を繰り返すと、どのデータがどの段階のものだったかとか、あるモデルを推定するに使った訓練データが何だったか、どこへ行ったか分からなくなってしまうことがある。高価な統計解析ソフトを入れるよりは、データのバージョン管理をするシステムを入れたほうが有効だ(p.103)。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/915-6b88c113

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する