統計学の検定を勉強していると
「サンプルサイズが30以上の場合、十分大きいサンプルとみなす」
などの文言を目にしたことはないでしょうか?
たとえば、WikipediaのZ検定のページには以下のように記載されています。
母集団は正規分布に従うことがわかっていなければならない。ただし母集団が正規分布に従うかどうか判然としない場合でも、用いる標本のサイズが十分大きければ(一般に30から40以上ならば)よい。(Wikipedia)
唐突に30という数字が現れ、なんで??と感じる方が多いのではないでしょうか。
私もその1人でした…笑
この根拠としては、統計処理を行う際に
以下のメリットを活用できるサンプルサイズの境目が約30なのです。
以下で実例を交えて解説していきますね。
平均値が正規分布に従うようになる
統計で検定を行う場合の前提のひとつに
データが正規分布に従っている(正規性)
というものがあります。
とはいえ、データが正規分布に従っているか、なんて
すぐにわかることでしょうか?
結果が知りたいから実験しているわけで、
まして数回しか実験できないのだから分布なんてわかるか!
そう思ってしまいますよね。
こんなときの強い味方が中心極限定理です。
多くの場合、母集団の確率分布がどんな分布であっても、標本平均と母平均の誤差の分布は、標本の大きさを大きくしたとき近似的に期待値ゼロの正規分布になる。(Wikipedia)
少し難しい書き方がされていますが、要は
元の分布がどんな分布であっても、
サンプルサイズを大きくしていくと平均値は正規分布に従う
ということを示しています。
このときだいたい正規分布になるサンプルサイズが約30ということですね。
t分布が正規分布とほぼ同一になる
Z検定とt検定の使い分けとして、以下のように説明される場合があります。
- Z検定 サンプルサイズ30以上 or 母分散が既知の場合
- t検定 サンプルサイズ30未満 & 母分散が未知の場合
ここでもサンプルサイズによる使い分けが現れました!
この理由としては
サンプルサイズが30を超えるとZ値≒t値となるため
です。どちらを使っても大差がなくなるわけですね。
まとめ
サンプルサイズ30の根拠としては、
統計処理を行う際に以下のメリットを活用できるからでした。
サンプルサイズが大きい場合は、まさに統計学の得意分野
様々なメリットが得られるわけですね。
でも実験室での実験ってそんなにサンプル数稼げないけど…
サンプルサイズが小さい場合はどうするの…?
というのは、別な機会に記載したいと思います。