大久保街亜・岡田謙介著「伝えるための心理統計ー効果量・信頼区間・検定力」を読みました。

この本は、ぼくがほぼ毎日読んでいるブログ「パレオな男」で、管理人の方がおすすめしていたので気になり読みました。

2016年に読んで良かった本ベスト10
アラフォー男がアンチエイジングについて考えるブログです。
yuchrszk.blogspot.com

統計学の本は2〜3年前に「統計学が最強の武器である」「統計学を拓いた異才たち」を読んで以来ご無沙汰だったのですが、今回久しぶりに手に取って読んでみました。

統計学を拓いた異才たち(日経ビジネス人文庫)
統計学を拓いた異才たち(日経ビジネス人文庫)
www.amazon.co.jp

この本を読むまえに持っていた疑問は、「統計的に有意な差がある、というのはどの程度意味があるんだろうか」というものです。
ふだん、Webディレクターの仕事をしており、運用フェーズにあるサイト・アプリの改善をする際に、A/Bテストで新しいUIやデザインの検証をすることがあります。

最も一般的なA/Bテストにおける検証は、下記のようなものです。
(1)現在のデザインをオリジナル、新しいデザインをテストパターンとして、サイトに来訪したユーザーをそのどちらか一方のパターンに振り分ける。
(2)サイトのセッション数とコンバージョン数(ECサイトなら購入完了)をパターン別に見て、コンバージョン率(=コンバージョン数÷セッション数)を計算する
(3)オリジナルパターンとテストパターンでコンバージョン率を比較し、大きいほうを新デザインとして採用する

この(3)における大小比較のジャッジに「統計的に有意な差がある」か、帰無仮説検定を用いています。つまり、「コンバージョン率の差がない(=同じ値である)」という帰無仮説を立て、帰無仮説が正しいとしたときに、それを表す検定統計量とそれが従うはずの分布を設定できる(A/Bテストの場合は「カイ二乗分布」と呼ばれる分布)ので、その検定統計量を計算します。
ここで慣習的な「有意水準」に基づき「棄却域」を決め、計算した検定統計量がもし棄却域の範囲内にあれば「帰無仮説を棄却(→コンバージョン率に差がある)」、そうでないなら「帰無仮説を採択(→コンバージョン率は同じ)」と結論付けます。

ここで「帰無仮説を棄却(→コンバージョン率に差がある)」という表現をしましたが、正しくはこれは間違いです。統計的検定において、誤りは2種類あると言われています。
まず、第1種の誤謬。仮説が真であるにも関わらず、誤って偽としてしまうこと。つまり、コンバージョン率は同じなのに、差がある、と言ってしまうことです。この間違いを出来る限り防ぐために有意水準が存在しますが、この有意水準は先ほども書いたように慣習的に5%と設定することが多く、そうした場合、5%が第1種の誤謬の発生確率です。なので、誤解を恐れず言えば、A/Bテストの結果、帰無仮説検定により、コンバージョン率に差があると結論付けたとしても、5%の確率でその判断は間違いだということになります。
そして次に、第2の誤謬。これは、仮説が偽であるにも関わらず、誤って真としてしまうこと。つまり、コンバージョン率に差があるのに、同じと言ってしまうことですが、この第2の誤謬を防ぐことができる確率を「検定力」と呼びます。

これまで書いたように、A/Bテストの評価フレームでは、第1の誤謬は「わりと」防ぐことができるが、第2の誤謬については一切触れていません。このフレーム自体をどう評価すべきか、という話は別の記事で書くとして、この本では、

・第1・第2の誤謬の発生確率を決める有意水準・検定力、帰無仮説が正しくないことを表す「効果量」(≠統計検定量)が互いに影響し合っている
・帰無仮説の棄却・採択を判断する際に用いる統計検定量(T)は、効果量(ES)・サンプル数(N)とは「T=f(N) × g(ES)」の関係がある
・効果量と検定力を固定すれば、必要な最小サンプル数を決められる

ことを様々な事例を使って説明してくれています。(なので、計算式が割とたくさん出てきます。ぐおぉぉぉ〜〜。)

わりと長文を書いてしまったので笑、上記の詳細、まずは最後サラッと書いた「効果量」とはなんぞや?というところから次回書いていこうと思います。

ちなみに、先ほど書いた3つめの必要サンプル数の決め方、については算出方法まで記載はなく、「サンプル数の決め方」という専門書が出版されているようです。これはまだ読んでいないので、読み終わったら(読むのは時間がかかると思いますが笑)読書録を書こうと思います。