Entries

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/744-b39f1d4f

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

フォスター・プロヴォスト、トム・フォセット『戦略的データサイエンス入門』

戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック
こういう本のタイトルにある「戦略的」はほぼ何も表していない。原題は"Data Science for Business"で、ビジネスへの適用を考慮に入れながら、データサイエンスの各手法を概観したもの。数式が満載というわけではない。しかしアルゴリズムの内容や、オーバーフィッティングを筆頭とする問題への対処法に踏み込んでいくため、読む上でデータサイエンスの素養は必要だ。ある程度学んだ人が全体の俯瞰や、適用にあたって注意すべき点を把握する本だろう。

ビジネスへの適用における配慮としては、例えば本書には決定木など木構造のモデルが多く登場する。木構造のモデルは確かに表せることが少ない。しかし何よりも理解しやすいためにビジネス上は有益だ(p.87)。様々なモデルの中から適切なものを選択する際には、二乗平均誤差とかAICとかROCとかが使われる。どういう指標を用いるかも、何を最終目標にしているかに依存する(p.309)。「しかし、適切な指標を選ぶことについて、分析担当者があまり注意を払わないことはよくあること」(p.211)だ。例えばモデルの評価に期待値を使うとすれば、確率と掛け合わせる値の推定にはビジネスの理解が必要なことは明らかだろう(p.214-221)。ビジネス上、入手できないデータや取り得ない選択肢もある。重要なのは複雑なモデルの構築ではなく、そうした制約や仮定の発見だ(p.321)。

データ分析の手法に対する個々の話はしっかり書いてある。クラスタリングやSVM、ランダムフォレスト、ベイジアンモデルなど主要なものは概観されている(ニューラルネット系はない)。データサイエンスにおける前処理の重要性(p.275-295)や、単純ベイズのメリット(オンライン学習の容易さ)とデメリット(確率が相対的比較でしかない)といった点(p.267)、Netflixのコンテストから読み解かれる、分散の大きいデータに対するアンサンブル手法の有効性(p.342)といった論点が面白い。

「データはデータ収集システムを設計した人物の信念や目的、偏り、そして実用面での制約を含んでいる」(p.379)としてクワインの観測の理論負荷性テーゼが参照されている。ちょっと面白い。ただ、中で「経験主義と解析主義の二元論」とされている解析主義とは何だか不明。empiricismと対比される解析主義の原語はapriorismかな。

多くの訳者で訳されている本なので、たまに語調の統一性に欠けている。「である」調と「だ」調が混ざっている箇所もある。改善してほしいと思ったのは、文中で参照される論文で「参考文献」に載っていないものがあること。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/744-b39f1d4f

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。