Entries

上田太一郎『データマイニング実践集』

データマイニング実践集
平易に使える事例集を探す一環での読書。Excelを使って簡単なデータマイニングをやる事例の本。解説編と実践編に分かれている。事例は解説編のほうに問題としていくつか、実践編のほうに事例が17個載っている。解説編に書いてある解説内容は重回帰の簡単な話とマハラノビスの距離について。これは実践編で扱われる内容となぜかあまり関係していない。

実践編での内容は基本的に重回帰分析。アンケートの設計としてコンジョイント分析が多少出てくる。Excelだと時系列分析をまともに取り扱うのが難しいので、最近隣法とかカオス理論とか言いつつ重回帰に帰着されている。少しだけ、自己回帰モデル(AR)が出てきている。この辺りの見通しはあまり良くない。

Excelでやるとカテゴリカル(定性的)データの取り扱いが面倒くさいのがよく分かる。月別のデータで月をすべてパラメータにしようとすると、12個の列を新設してそれぞれに0と1を振るというダミー変数の導入を行う。12個のままだと階数落ちで行列方程式が解けなくなるので、どれかの変数を削るという手続きとなる。かくして単純な表データでも、ダミー変数に展開したところで表のサイズがかなり大きくなっているし、初心者には何だか分からないだろう。RだったらFactor型でやればいいので(内部処理は上と同じことをしているが)、見通しははるかによい。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/760-cf50078b

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する