Entries

岩波データサイエンス刊行委員会編『岩波データサイエンス Vol.3』


第三巻は統計的因果推論。変数間の相関関係は必ずしも因果関係を意味しない、というのは統計の鉄則。では逆に、どのような変数間の関係なら因果関係と呼べるのか。基本的には、それら変数に影響を与えるすべての変数(交絡要因)を考慮に入れた上で、それでも相関がみられるなら因果関係とするような感じだろうか。

科学実験ならばランダム化比較試験(Randomized Controlled Trial, RCT)を行うような実験計画を立てて、因果関係を推定すればよい。ところが他の領域ではRCTができない場合が見られる。医療分野で、同じ症状の患者群である集団には治療を行わないという実験計画は倫理的に不可能。公共政策などもそうした分野。つまり、反実仮想の状況のデータが欠損した状況で因果推定を行う。

観測データから因果関係を導き出す、比較的ロバストである研究手法があって、準実験(Quasi-experiment)と呼ばれる。準実験の5つの具体例が簡潔にまとめられており、分かりやすい(p.49-61)。操作変数法(IV design)、回帰分断デザイン(RDD)、中断時系列デザイン(ITS)、差の差分析(DID)、傾向スコア・マッチング(PS)。簡潔に紹介する論文の他、操作変数法と傾向スコア・マッチングについてはさらなる詳しい解説もある。

実際例に適用した話が載っていて理解の助けになる。CMを見ることとゲームアプリの利用時間、ノーアウト1塁でのバントと同イニング内の得点、母親就業率と子供一人当たり認可保育所定員数の例がある。これらは完全にランダムだとみると相関関係を見誤る。交絡要因を除いた上で正しく推定する方法が書かれる。

例えば、因果推論の方法は、ランダムと仮定した場合よりも詳しい分析を与えることができる。ノーアウト1塁でのバントが同イニングでの得点を向上させるかどうかについては、分析の結果、「バント作戦をとるかとらないかは、得点が入る確率を上昇させないが、バントをした場面ではバントをしない方が得点が入る確率は上昇し一方でバントをしていなかった場面では、バントをするかしないかが、得点が入る期待値を上昇させるかどうかはわからない」(p.110)とされている。

また、母親の就業率と、子供一人当たりの認可保育所定員数について。相関を取ると、正の相関がみられる。これは保育所を増やせば母親の就業率が上がるだろうという直観と合っているので、よく持ち出される結果である。しかし、経済規模、産業構造、女性の就業意欲、女性の就業に対する社会の理解などには地域性が見られる。そのため、差の差法でその地域性の影響を排除すべく、2005-2010年の変化率で母親就業率と子供一人当たり認可保育所定員数を見ると、相関は消える(p.112-117)。差の差法に基づく回帰モデルからは、保育所定員数を増やした結果、母親就業率が増えたといった因果関係は見いだされない。保育所店員数を増やすと、それまで祖父母に預けていたもともと就業していた母親が、保育先を保育所に切り替えている効果が大きい(p.124)。こういう分析からは、認可保育所がなければそもそも母親が就業できないような家庭に政策的支援が届いていない可能性を考えることができる。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/871-950dd876

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する