Entries

アレックス・ラインハート『ダメな統計学』


統計学の誤用について楽しく書かれた本。内容はしっかりしているが読み口はとても平易。科学研究における統計学の誤った使い方について、実例を挙げながら述べている。著者は物理学から統計に転じた人物。けれども、実例には心理学や医学の論文が多い。科学研究そのものに対するメタ研究など、広い範囲で多くの論文を参照している。

本書の前半でよく出てくるのは、p値に頼りすぎることについての問題だ。p値という概念はとてもわかりにくく、様々な誤用があることは広く知られている。かの『ネイチャー』に載った論文ですら、38%の論文でp値に誤字か計算間違いがあるという(p. 121)。特に著者が述べているのは、真のケースと偽のケースの数の差が大きい時には、p値が基準より低くても信頼できないこと。これは基準率の誤りと呼ばれる。マンモグラフィーによる乳ガン検査の例が分かりやすい。
マンモグラフィーを受ける女性のうち、0.8%が乳ガンにかかっているとしよう。こうした乳ガンの女性のうち、90%はマンモグラフィーで正確に検出できるものとする。しかし、まったく乳ガンにかかっていない女性の7%がマンモグラフィーで陽性と判断されてしまう。このとき、マンモグラフィーで陽性の結果が出た場合、乳ガンにかかっている確率はどのぐらいだろうか?検査対象者が男性である可能性を無視すれば、この答えは9%になる。(p.53)

こうした状況では、検定対象が乳ガンにかかっているという仮説の p値が基準値以下だったとしても、偽陽性である可能性は非常に高い。p値だけを見るのではなく、基準率(真なるケースの割合)を考えることが重要だ。

そして著者はp値よりも信頼区間を用いることを推奨している。信頼区間の方が情報量も多いし、分かりやすいのにも関わらず、なぜか広く使われていない(p.14-17, 29f)。2種の薬をそれぞれ独立に偽薬と比較する場合にはp値に差が出ても、お互いに比較すれば差が無いという結果が出ることもある(p.69f)。このような場合、信頼区間を計算しておけばより明瞭になる。実験心理学では研究論文の97%が有意性検定を含んでいるのに対し、およそ10%しか信頼区間を報告していない。この状況に対する説明としては、信頼区間の幅がしばしは困惑するほど広いために報告がされないということと、査読を通じた科学における同調圧力の存在が指摘されている (p.15f)。

しかしp値よりも深刻な問題は検定力にある。標本数が足りずに検定力が低く、結果を信頼できないというケースが多く存在している。0.8程度が必要な検定力に対し、例えばコーエンの調査では普通の研究で0.48程度の検定力しか存在しないことが述べられている(p.26)。研究を始める前に、どの程度の研究をすれば必要な検定力が確保されるかを計算しているのは、『サイエンス』や『ネイチャー』でも3%未満という状況(p.24)。検定力が足りない事態が発生するのは、検定力の計算が難しく、また計算するツールもないという事情もある。しかし大きな問題は、研究者は最も刺激的な結果をいち早く発表しようと競争しているという事実にある。これは事実の誇張、M型の過誤、勝者の呪いといった言葉で表現される(p.32)。

本書の大部分は、こうした勝者の呪いを巡っている。この呪いを解くためにいくつもの方策が考えられる。研究を始める前に分析計画を立案するのは、重要な一歩である。分析計画はデータの収集を始める前に立てられていなければならない。データを見てから仮説を決めたり、外れ値を決めたりすると偽陽性率は容易に高まってしまう。こうしたところで研究の自由を行使してはならない(p.113-116)。循環分析、データの二度漬けといった事態も大きな問題だ。これは例えば神経科学で、反応するニューロンを特定してから、そのニューロンの反応具合を調べるような二段階の手続きに潜む問題。そもそも反応するニューロンを選んで行っているので、そのままこの二段階でデータを使いまわすと、意図しない結果を生む(p. 80-83)。

さらに勝者を呪いを避けるためには、何よりもデータの再現可能性が必要だ(p.124-130)。他の研究者が研究に用いたデータはなかなか再利用することができない。そのデータが使えなければ、その結果を検証することは難しい。また独自の研究ではなく他の研究の検証に時間を費やすモチベーションは低い。さらに言えば、結果の出なかった研究も公表されるべき。つまらない結果、有意ではない結果が公表されないと、公刊の偏りに陥る。有意な結果の有意性について、その詳細が明らかにならない。また、有意でない結果について他の人が無駄な重複研究を行ってしまうかもしれない(p.131-148)。

かくして統計教育の必要性が訴えかけられる(p.152-162)。ただし、統計についての我々の誤解は根強く、ただの講義では誤解を解くことができない。そのため、事前学習でまず学生に一人で結論を出させ、その誤りを授業で正すことで、誤解を意識させる工夫が必要だとしている。また、データの扱い方についての研究プロトコルを学界で標準化することの必要性や、統計の専門家を研究に引き込むことといった方策が説かれている。

科学研究を中心としたものだが、統計を用いることの危うさについて、豊富な実例に基づいて分かりやすく述べた良書。あとはこれを統計理論まで踏み込んで書いている本があればよいのだが、そんなのあるのだろうか。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/894-c6e372d2

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する