Entries

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/872-6957c330

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

池尾恭一、井上哲浩『戦略的データマイニング』


ビジネススクールのデータ分析のケーススタディかな。アスクルのデータをマスキングしたものを使って、データ分析を行って顧客の購買行動を分析する。やっていることは重回帰分析、k平均法、アソシエーション分析。さほど高度ではない。なお、SPSSと一部Clementineによる分析結果。

第3部が応用編とされているが、本論はここから。それまでの134ページは、アスクルのような企業が置かれている市場環境の分析と、ごく一般的なデータ分析手法の解説。あまり面白いところはない。データ分析には業務理解が必要なのは確かだが、実際に第3部で行われている分析には、前で触れられている市場の知識は必要でない。初めから実際のデータ分析だけで本を編むべきだったろう。データ前処理についてだけ、正解データが少ないときに反復抽出してバランスを取る方法をメモ(p.84-88)。増加バランスと呼ばれているが、ブートストラップの話。

肝心の分析だが、データには顧客IDと商品カテゴリーごとの購入数、購入金額が期間ごとにあるのみ。行われている分析は、期をまたいで顧客の購買行動がどう変化するか。例えば、前期購入からの継続に効く要素が何であるかを、次期継続購入するか否かを目的変数としてロジスティック回帰を行ったりする(p.146-154)。また、購入金額・購入頻度でクラスタ分類を行って顧客のセグメントを分けた上で、クラスタ間の移行に効く商品群をロジスティック回帰で探る(p.168-178)。さらには、バスケット分析からトラフィック・ビルダー(購入頻度や購入単価の高い商品)の特定とクロスセルの候補を選定する(p.209-221)。

それにしても回帰分析のR^2値が低すぎる。どの分析もせいぜい0.2~0.4。p値は低いので結果は信頼できるが、これではとても説明力が高いとはいえない。顧客のデモグラやジオグラの情報が必要だということだろう。カテゴリー名もすべてマスキングされているので、購買パターンもイメージしにくい。分析データがそもそも良好とは言えないようだ。

分析テーマはそれなりに面白いので、それは使える。ただ、試行錯誤の過程などを抽象化して書いてあるとよかった。細かい分析のなかに埋もれてしまっているが、うまくかないのでアプローチを変える、といったところにこういう分析事例の本質があるはずだ。

なお、重回帰分析で回帰係数を算出してから、その回帰係数に従属変数との標準偏差の比をかけて標準化する、という手続きを行っている(p.140f)。初めから変数を標準化した標準化偏回帰係数でいいのではないか。同じ結果になる気がする。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/872-6957c330

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。