Latest Entries

岩波データサイエンス刊行委員会編『岩波データサイエンス Vol.3』


再読。統計的因果推論について書かれたこの号は本当に素晴らしい。因果グラフの初歩的なところから、因果関係を推論するための差の差法などの手法、そして保育園問題や広告ターゲティングなど具体的な応用例まで。再読するたびに、自分がいま面しているデータ分析課題が因果推論の枠組みからどう見えるかなど、意識することが多い。

単純に考えられる変数を入れた線形回帰では、共変量による影響が処置群・対照群によらず同じと仮定していることになるため、ATE(average treatment effect)の推定が正しくない(p.71f)。とはいえこうした話はまだまだ普及しているとは言い難い。統計では相関関係は知れても因果関係は知れない、とされ話が普及してきた。今後は因果推論の話を踏まえて一般的にも語るものが増えていくだろう。

因果の流れの上流でも下流にもないのに、回帰モデルに変数を加えるとバイアスが生じる、M字合流点の概念は面白い(p.41f)。ただ、Mバイアスは理論的には存在するが、先行研究や現象のメカニズムを考慮していれば問題になることはないともされている(p.87f)。
スポンサーサイト

高橋淳一他『データサイエンティスト養成読本 登竜門編』


このシリーズの中で一番厚い。とても多くの分野のことを扱おうとしている。データサイエンスということで思い浮かべる、統計や機械学習の話だけではない。一般的なエンジニアリングの話もある。シェル、データベース入門、クローラーといった話題がそれ。若干、まとまりを欠いているように思える。

登竜門編なので、データサイエンティストになりたいならこの辺の話題を押さえるべき、というのが総覧されているのだろう。私ならむしろ「~編」と付いていない養成読本(改訂第二版)が良いと思う。このシリーズはエンジニアリングの話題が多い。例えばデータサイエンスでビジネスを行う際のステップから、機械学習の基本的な概念(様々な精度の概念や交差検証など)をしっかり解説したものがないものか。新人研修向けにいろいろと見ていたのだが、結局そうした書籍は見つからなかった。

シンディ・アルバレス『リーン顧客開発』


製品やサービスを作るにあたって、実際の顧客に早い段階から接触し、顧客とともに作り上げていくこと。製品開発にあたってのユーザーリサーチとは違う。顧客となりうる候補と会って、実際に顧客そのものを作っていく。だから製品開発と並ぶ、顧客開発というプロセスと呼ばれる。

顧客開発には製品開発と同じだけの時間をかけるべきだ(p.2)。なぜならば、製品を作ってもそれを使う顧客がいなければ、製品開発は無駄になるから。顧客開発を1時間おこなうことで、文書作成、コーディング、設計の作業を5-10時間短縮できる(p.4, 15-17)。顧客開発は、まだ製品のアイデア段階のとき、必要最小限のもの(MVP)を作った時に使う。また、新規開発でなく既存顧客がいる場合や、顧客開発を製品の継続的プロセスに組み込んでいく方法も語られる。

リーン顧客開発は、仮説構築、潜在顧客のイメージ構築、顧客への質問、回答の解釈、学びの取り込みというステップから成る(p.5)。潜在顧客のイメージ構築、すなわちどんな人が顧客になってくれそうなのかを想像することは、年齢や性別など人口調査的なデモグラ情報からプロフィールを想定してはならない。そうすると、実在しない架空の個人の話を作ってしまう(おそらくペルソナ手法への批判だろうか)。それでは、製品購入につながる具体的な生活の場面での課題がイメージされない。製品が解決しようとする課題を持っている実際の人を探し出さなければならない。デモグラ情報よりは、新しいテクノロジーへの感受性をキーとして、イノベーター、アーリーアダプターかどうかを特定したほうが良い(p.27-32)。

顧客に実際にどうインタビューすればよいか。本書はどこでインタビューすべきかの場所から始まって、実際の会話プロットも含めて実に詳細にかかれている。本書のメインはこのインタビューの仕方にある。面白いテクニックとして、話初めの最初の1分が終わったら、次の1分はインタビュアーは黙る、というものがある。沈黙が続いても耐えることで、顧客は話し始めるという(p.110f)。インタビューするとはいえ、顧客が欲しがっているものを知る必要はない。要求どおりに作ったものが失敗することは、非常によくあること。顧客が望んでいることではなく、顧客がどう行動しているか、顧客が抱えている課題に焦点を当てるべきだ(p.119)。顧客は既存の発想や制約に囚われていて(メンタルブロック)、課題は容易に明らかにならない。抽象度を一段上げたオープンクエスチョンをすることで、革新的で破壊的なアイデアを引き出す(p.81)。「魔法の杖の質問」(なんでも実現できる魔法の杖があったら、どうしますか?)で現実の拘束を思考から外すことで、自由な発想を促す(p.90, 121f)。

聞き手はバイアスを持たずに聞かなければならない。相手は本音を言っているのだろうか。「多分」という言葉はだいたい、怪しいサインだ(p.133)。顧客になってくれる人は能動態を使い、ならない人は受動態と仮定を多く使うものだ(p.135)。何人かが一致している行動パターンがあったら、次の人には他の人はそれとは違う行動をしていると架空の話をしてみる。すると、その架空の人とは何が違うのかを顧客は話し始める、というテクニックもある(p.147f)。書ききれないほど豊富に、顧客からうまく課題を聞き出す方法が書かれている。

こうした顧客インタビューで金銭的対価は支払わなくて良いという。なぜなら、お金を払わなければインタビューに応じてくれない人は、そもそも製品が出ても買う見込みのある人ではない(p.55f)。もちろん、コーヒー代くらいは出すべきだ。

こうしてインタビューした顧客の課題を解決すべく、まずは必要最小限の製品(Minimum Viable Product)を作る。MVPのパターンが、プレオーダーMVP、オーディエンス開発型MVP、コンシェルジュMVP、オズの魔法使いMVP、シングルユースケースMVP、他社製品MVPと6つに分けて語られる(p.164-180)。これらはどの範囲までの顧客を対象とするか、手作業をどこまで利用するかなどで分かれる。オズの魔法使いMVPなどは、いわば「ハリボテ」で、ユーザーからはシステムで動いているように見えながら、背後では人手で処理するような仕組み。もちろん、MVPの段階を過ぎれば実際にシステムを実装する。なかなか面白い視点。こうしたMVPに対して、顧客が失望を感じているなら十分なMVPではないが、不満を口にしているなら改善点が得られているわけで、いいことだ(p.189)。

あんちべ『データ解析の実務プロセス入門』


再読。データ分析のプロセスについて入り口から平易に書いている良書。タッチは軽いながら、細かいポイントまでしっかり書いてあるので、初学者に勧められる。数式も少ないところも初学者にはよいところだろう。著者の仕事柄か、アンケートなどの社会調査データとWeb系のデータを中心とした記述。例えばアンケートの設計や回答の処理にとても詳しい(p.74-93)。またWeb系の話では、DAU(Daily Active Users)はCMを打てばすぐに変動してしまう、安定しない指標なので、KPIとして設定するのは好ましくない、など(p.155f)。

データ解析者に求められるのは、個々のタスクのエキスパートとなることではない。「データ解析者に求められるのは、すべての分野を自力で成し遂げられるようなスーパーマンとして振る舞うことではなく、データ解析に関連する全プロセスの監督車となること」(p.21)だ。実際のモデル推定だけではなく、ビジネス課題の設定や人を動かすことなどを含めてデータ解析のプロセス。データ解析とは何よりも意思決定を支援するもの。解析の結果から施策を提言する場合は、施策の効果、コスト、リスクを入れるべきで、特にリスクを外してはならない(p.164)。

データ解析は試行錯誤を繰り返すプロセスだ。まず30分だけ分析を行ってみてその知見を収集する。30分で新たな知見が得られなくなったら分析をストップするという経験則が書かれる(p.39)。データは、分析の目的に合っているかどうかの妥当性と、データが事実に対して偏りや歪みを持つかという信頼性の二軸で評価する(p.54-59)。ここはあらゆる分析の根本前提であり、議論を尽くしている。信頼性を確保しようとして欠損値を回帰分析で埋めるのは、線形モデルの仮定が多く、勧められるものではない(p.90)。

データについては管理の重要性も述べられる。確かに様々に前処理を繰り返すと、どのデータがどの段階のものだったかとか、あるモデルを推定するに使った訓練データが何だったか、どこへ行ったか分からなくなってしまうことがある。高価な統計解析ソフトを入れるよりは、データのバージョン管理をするシステムを入れたほうが有効だ(p.103)。

デイビッド・ネトルトン『データ分析プロジェクトの手引』


400ページほどある大部の本。データ分析について、ビジネスの観点やエンジニアリングの観点からの話題が扱われる。さらにWeb上のデータを中心として多くのケーススタディも扱われている。アルゴリズムについては、交差検証や決定木などの話題もそれなりにあるが、さほど重点は置かれていない印象。著者はもともとIBMの人だったこともあり、SPSSを用いた分析が念頭に置かれているようだ。大企業においてデータ分析の専任者がSPSSやSASでやるイメージ。現在のRやPythonを中心とする試みからすると、どうも一世代前のようなものに見える。

様々なことが書いてあるのだが、どうもいまひとつパッとしない。翻訳本だということもあるか。戦略面、データ面から考えられた、データ分析プロジェクトの実行可能性チェックリスト(p.10-14)は役に立ちそう。データの質を、ビジネスへの関連度やそれ自体の信頼性からなんとか定量化しようとしている(p.91-93)。そこまでやらなくてもという印象をもつ。データ表現の発展形として、階層、オントロジー、グラフ、多クラスに所属するというファジー表現が扱われている(p.75-81)のが面白い。

データ分析でありがちな間違いとして、データのバイアス、前処理のエラー、間違った解釈が挙げられる(p.162-165)。自分勝手な判断によって袋小路に陥ることを避けるために、銀行、保険、通信などの分野ごとにどのような説明変数が必要なのか、業界ごとにパッケージ化されたものを使うのも手だ(p.124-127)。テキストマイニングに5つのステップが定式化され、これもSPSSやSASにパッケージがあるので活用するようにと(p.209-218)。

翻訳本でここまで大部のものを読まずとも、和書でいい本はある。再読しよう。