Entries

岡嶋裕史『数式を使わないデータマイニング入門』

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)
(2006/05/17)
岡嶋 裕史

商品詳細を見る

データマイニングって何だろうという疑問に新書レベルで平易に答えてくれる。なかなかよい本。なぜデータマイニングというものが重要になってきたのか、それによって分かることは何か、人々が過大な期待をしているが実際にはできないことは何か、そしてデータマイニングという考えが広まっていく上での危険性は何か。こうした事柄が書かれている。

著者はデータマイニングの位置づけについて、高層建築とエレベーターにたとえている(p.11)。高層建築ができたとしても、エレベーターが無ければ使いにくいし、高層建築のよさを十分に発揮できない。データマイニングはWeb2.0に対するエレベーターのようなものであって、データマイニングなくしてはWeb2.0はその真価を発揮できないのである。

情報の質と量が以前とは大きく変わったからこそ、データマイニングということが意味を持ってきたのだ(p.10,171-174)という位置づけは納得が行く。つまりストレージなどの価格低下、インターネットの普及によるユーザ情報の氾濫と結合、並列処理を始めとする処理能力の向上によるデータ分析力の向上。ここには確かにやや質的に違うものが生まれている(と考えるのは「ビッグデータ」というバズワードに踊らされているだけかはいつも考察が必要だが)。さらに、データマイニングで分析された結果はあくまで相関であって因果ではないし、そうした相関のなかでも使えるものを選り分けるのは依然として人間の仕事であると注意をされている(p.28-35,68)。雨が降ることと傘が売れることの相関を分析しても意味が無い。

この本が面白いのはデータマイニングの手法や概念について、非常に簡単なレベルで書いてあることだ。分析するためにどういうデータを集めるかが難しいことであり、try&errorで進めていくしかないこと。そのときの異常値の取り扱い(p.71-74)など。回帰分析と最小二乗法のアイデア(p.85f)、決定木と過学習への注意(p.100-104)(ここにオッカムの剃刀が出てくるのは意外だった)、クラスタ分析(k-means法)のアイデア(p.112-119)などはよく書けている。他には自己組織化、連関規則(バスケット解析)、ニューラルネットなどのアイデアが平易に書かれている。

こうしたデータマイニングの手法を手軽に(一般教養レベルで)知るにはなかなか良い本。逆に言えば、そうした知識のある人は、知らない人への解説の仕方として参考になるだろう。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/519-997bbf18

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する