Entries

フォスター・プロヴォスト、トム・フォセット『戦略的データサイエンス入門』


再読。データサイエンスをビジネスに活かす、という視点から書かれたデータサイエンスの入門書。各アルゴリズムの基本的な解説や、過学習と交差検定、ROC曲線などモデルの評価の仕方についての解説はもちろん載っている。この本はそうしたデータサイエンスの中身の解説もさることながら、一貫してビジネスに活かそうとするとどういう課題があるかを述べている。根本的には、データサイエンスはエンジニアリングというより調査研究であって、アプローチと戦略に基づいて反復的に行われるものだ、という視点がある(p.40, 366)。ソフトウェア開発と同様に扱ってはならず、またデータの収集そのものにも戦略的に投資せよ、とする。

データの収集については例えば、シグネット銀行の例が挙げられている(p.10-14)。バージニアの地方銀行であるシグネット銀行は、クレジットのデフォルト確率をモデリングするのに、実際に顧客に対して様々な契約条項を無作為に提供した。これにより一時的にもちろんディフォルトが増え、銀行の損失は増大した。しかしそれによりデータが収集され、結果としてこの銀行のクレジットカード業務は改善され、さらにはクレジットカード部門はキャピタル・ワン社としてスピンオフして発展した。

扱われている話題は一般的なものだろう。教師あり学習から分類木、線形判別器、サポートベクターマシン、ロジスティック回帰、教師なし学習から最近傍法、k平均法。若干の自然言語処理、そして共起分析とレコメンデーションなど。なかでも、分類木の話はよく書けている。著者たちは、ビジネス的には真っ先に理解しやすいものとして木アルゴリズムを重宝している。分類木を使った教師つきセグメンテーションの解説はエントロピー、情報利得から説き起こして、特によい解説(p.57-77)。

ビジネス的視点からは、期待値を用いた考え方が重要だろう。この見方は純粋にデータサイエンスを扱っているだけの本には出てこない。例えば顧客の乗り換え(離脱)分析(p.313)。離脱分析の目的は、顧客数を減らさないことではない。利益を減らさないことが目的だ。だから、顧客を維持することが利益でなく逆にコストになるなら、離脱を気にする必要はない。すなわちモデルによる予測そのものではなく、予測によるコストの変化を見なければならない。DMを送付するとき、一般的に反応確率は低い。しかしDMの発送コストは低いので、反応確率が1%でも意味がある。反応確率が何%以上とモデルで予測される人をDM送付対象とするの閾値は、コスト構造の情報を基に期待値で選択する(p.212-221)。 ちょうど似たような問題を扱っていたので、示唆が大きかった。

この観点では、Netflixチャレンジの話(p.338-342)はやや物足りない。著者たちは、Netflixチャレンジでは、映画の好みの潜在的次元を発見してレコメンデーションを行った例として好意的に取り上げている。だが、実際にはこのモデルはビジネスに活かされなかった。それは、潜在的次元を用いた複雑なモデルがビジネス的には理解不能であったから。むしろ本書の発送からすれば、逆の教訓として取り上げられるべき事例に見える。

この本は良書と言われるのだが、以前読んだ時にはいまいち印象がよくなかった。当時はデータサイエンスの知識がほとんど無かったためと思い、もう一度読んでみた。結果、あまりぱっとしない印象は変わらなかった。そんなものだろう。
すなわち、データサイエンスによって優位に立つにはそれらを生かす企業戦略が必要ということです。[...]データ資源やデータサイエンス技術は、競合他社が容易に手にしたり活用できるものであってはなりません。あなたの企業には、独自のデータ資源があるでしょうか。なければデータ資源は他社より企業戦略にマッチしているでしょうか。それとも他社よりも優れたデータサイエンス技術を持っており、データ資源を活用して優位に立てるでしょうか。
裏を返せば、それらがなければ不利だということです。先ほどの質問については、競合他社の方が有利かもしれません。競合に対して優位に立とうと努力を重ねたとしても、データ分析に長けた競争相手に結果をさらわれることにもなりかねません。(p.352)
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/885-208c8e17

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する