Entries

福島真太朗『データ分析プロセス』


Rを用いたデータ分析のやり方について記した良書。実際にデータ分析をやる際のプロセスや、やる時に苦労するポイントを中心に書いている実践的な本。Rの使い方や、データ分析の各アルゴリズムの解説はあまりない。分析の例として出てくるのはirisやairqualityなどおなじみのtoy exampleもあるが、実際のスーパーマーケットのPoSデータや大学生の行動データStudent Lifeなど、現場の課題に近いものが大きな分量で扱われている。なによりも「分析のための分析」に終わることなく、実問題の解決に役に立つかどうかの視点が重要と考えられている(p.173)。

この本が素晴らしいのは、前処理についてきちんと扱っていること。欠損値の埋め方、外れ値の扱い方、連続データの離散化、特徴量の削減、正例と負例に量の差がある場合の対処、といった事柄が扱われている。それぞれの対処法にどのような手法があって、どれがどのような場合に使えるかがしっかり書いてある。参考文献と合わせて極めて役に立つ。こうした前処理を詳細に書いている本はあまりなく、貴重な一冊。参考文献もいくつか読み、理解を深めた。

後の章はAUCやF値といったモデルの評価方法、交差検定とグリッドサーチのやり方。そして実践的なデータを用いて、前処理から始まりグリッドサーチまでを一通りやってみせる。その中ではRではご法度とされるfor文を避けた書き方や、dplyrパッケージをメインに用いた書き方がされている。reshape2によるデータの縦持ち・横持ちの話もあればいいと思ったが、多くを望み過ぎか。

またPoSデータを用いた分析では、アソシエーション分析が詳細に書かれている。よくあるaprioriパッケージだけでなく、FP-Growthという手法も紹介されている(p.150)。抽出される膨大な数のパターンから、有効なものをいかに絞り込んでいくかという話題(p.151-161)も面白い。ちなみに、p.158の(4.23)は1からJaggard距離を引くのが抜けていて、冗長性は0.4でなく0になるのではないか。また、p.159の(4.27)では、P^kの要素間の冗長性の平均値であれば、k-1でなく(k-1)!で割る気がする。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/897-fc0936e9

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する