Entries

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/883-4bc9d11e

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

高橋威知郎、白石卓也、清水景絵『データサイエンティストの秘密ノート』


データ分析に関わりだした人が読むにはいい本。ソフトバンク・テクノロジーに所属する、データ分析歴3年未満のデータサイエンティストの失敗例を35個書いた本。こうした失敗事例から学ぶのはとても大切なこと。具体的な現場の事例に基づきながら、失敗例を公表しているのはなかなか貴重なものだろう。

最初にデータ分析のプロセスを準備、分析、報告の3つのフェーズに大別。それぞれのフェーズにあるステップを詳しく述べている。その中では、分析フェーズにある分析ストーリーステップ(p.16-19)がやや分かりづらい。ここはデータ分析の手作業レベルで何をするかを定めるとしている。データを収集するのは次のステップなので、データが見えていない状況。データがないのに手作業レベルでどうやるか決められるかどうか。ハイレベルな分析作業の定義だと、準備フェーズにあるステップと重複してしまう。

ステップの詳説の後が35の失敗事例。ここは何が起こったか、どうすべきだったか、教訓として何が得られたかの三つに分けて、簡潔に書かれている。データ分析歴の少ないデータサイエンティストの話なので、事例のレベルはあまり高くない。大部分はデータ分析の話と言うよりも、プロジェクトマネジメントやファシリテーション、またスライド資料作成の話。例えばスケジュール、品質、スコープ、予算のバランスを取る話(p.100)は、完全にプロジェクトマネジメント。またセル結合などがされていて、そのままでは読めないエクセルファイルの話(p.105-109)とかレベルの低い話もある。ファシリテーションの話は、分析ヒヤリングを円滑に進める、など。ミーティングに先んじて、また冒頭でその目的とゴールを明示するのは基本だろう。ヒアリングは目的、影響、便益に分けられていて、影響を述べるのは(否定的影響の明示はやや脅迫めいているとはいえ)やや面白い視点(p.42-46)。

データ分析の失敗例と言えば、回帰分析における正規化、多重線形性の話など(p.128-137)で、むしろ本の題名から私が期待していたのはこちらの方。Googleの機械学習プラクティス(Martin Zinkevich, "Rules of Machine Learning: Best Practices for ML Engineering"[PDF])みたいなもののずっと詳細版がないかな。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/883-4bc9d11e

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。