Entries

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/745-8b14c3d9

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

酒巻隆治、里洋平『ビジネス活用事例で学ぶ データサイエンス入門』

ビジネス活用事例で学ぶ データサイエンス入門
名著。ビジネスの現場で実際にいかにデータサイエンスを使っていくか。基本的な考え方と手法がRで解説されている。クロス集計から回帰分析、クラスタリング、主成分分析、決定木、ランダムフォレストなどが扱われている。Rのコードが詳しく書かれている。それぞれをパラメータが何の意味なのかなど考えつつ読んでいくと、基礎のかなりの部分の力はつく。

事例は著者たちのゲーム会社での分析例から単純化したものが使われている。したがってここで扱われているデータサイエンスもそうした事例に有効なものがメインになっている。最初の方で、意思決定支援と自動化では手法も目指すところも違うという指摘がされる(p.25-27)。意思決定のためにはまずもって意思決定者に理解できるようなものでなければならず、クロス集計や重回帰分析、いっても共分散構造分析が使われる。自動化ではそうした制約はない。本書のメインは後者の自動化にあろう。また、統計学でよくある仮説検定の話も本書にはない。統計的仮説検定はデータが少ないときの有効性を判断するものなので、それだけではビジネス的に有意かどうかはわからないし、大量のデータがあれば意味をなさない(p.95)。

データの前処理にもそれなりの配慮がされている。reshape2のようなパッケージの話もある。データクレンジングのためにほぼ情報のない変数や相関を除外して、主成分分析で直交変換を行うところの解説(p.185,207)はよく書けている。

本書の中で難しいがとても面白いのが、探索的なデータ分析を行う第9章。アプリの利用開始直後の離脱率を下げるために、ゲームから離脱する理由ではなく、継続する理由を考える。まずは概念的に考えた後、対応するデータで決定木分析を行っている。一見意外な分析だったが、とても面白い分析だ。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/745-8b14c3d9

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。