それでは毛玉諸君、これにて失敬

日々の精進を備忘録的に綴ります。

非復元抽出における有限修正項を導出

運動しない日々を送っているため日々体がなまくらになっています。ko_ya346です。
統計学実践ワークブック」 で引っかかった部分を自分なりにメモしていきます。

日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック | 日本統計学会 |本 | 通販 | Amazon

この記事では21章 標本調査法(P184)の非復元抽出の分散の導出をしてみます。

ざっくりあらすじ

大きさ N の母集団から大きさnの標本を非復元単純無作為抽出する。
その変量の値を x_i (i=1, 2,...,n)として、標本平均

 \displaystyle
\bar{x} = \frac{1}{n}\sum^n_{i=1}x_i

を用いるとき、 期待値は \mathrm{E}[\bar{x}]=\mu 、分散は

 \displaystyle
\mathrm{V}[\bar{x}]=\frac{N-n}{N-1} \cdot \frac{1}{n}\sigma^2

である。ここで \frac{N-n}{N-1}有限修正項と呼ばれる。

この有限修正項の導出について、テキストでは端折られていたので自分でやってみました。

導出してみる

普通に計算していきます。

 \displaystyle
\mathrm{V} [ \bar{x} ] = \mathrm{V} [ \frac{1}{n} \sum^n_{i=1} x_i ] = \frac{1}{n^2} \mathrm{V} [ \sum^n_{i=1} x_i ]  \qquad (1)

分散の和の公式は以下のように、共分散を考慮する必要があります。

 \displaystyle
\mathrm{V} [ a \pm b ] = \mathrm{V} [ a ] + \mathrm{V} [ b ] \pm 2Cov(a, b)

すると (1)の最後の部分は

 \displaystyle
\mathrm{V} [ \sum^n_{i=1} x_i ]  = \sum^2_{i=1} \mathrm{V} [ x_i ] + \frac{n(n-1)}{2} 2Cov(x_1, x_2) = n \mathrm{V} [ x_1 ] + n(n-1)Cov(x_1, x_2) \quad (2)

と変換できます。

唐突に出てきた \frac{n(n-1)}{2}は、 n個のサンプルから2個選ぶ組み合わせの数 {}_n C_2です。

...

続いて、 Cov(x_1, x_2)を求めていきます。

 \displaystyle \begin{split}
Cov(x_1, x_2) &= \mathrm{E} [ x_1 x_2] - \mathrm{E} [ x_1  ] \mathrm{E} [x_2] \\
&= \frac{1}{N(N-1)} \cdot \sum_{i \ne j} x_i x_j - \frac{(\sum^n_{i=1} x_i)^2}{N^2} \\
&= \frac{(\sum^n_{i=1} x_i)^2 - \sum^n_{i=1} {x_i}^2}{N(N-1)} - \frac{(\sum^n_{i=1} x_i)^2}{N^2} \\
&= \frac{N(\sum^n_{i=1} x_i)^2 - N \sum^n_{i=1} {x_i}^2 - (N-1)(\sum^n_{i=1} x_i)^2}{N^2(N-1)} \\
&= - \frac{1}{N-1}(\frac{1}{N} \sum^n_{i=1} x_i^2 - (\frac{1}{N} \sum^n_{i=1} x_i)^2 ) \\
&= - \frac{1}{N-1} ( \mathrm{E} [ x_i^2 ] - (\mathrm{E} [x_i ] )^2 ) \\
&= - \frac{1}{N-1} \mathrm{V} [ x_i]
\end{split}

2行目から3行目の

 \displaystyle
\sum^n_{i \ne j} x_i x_j = (\sum^n_{i=1} x_i)^2 - \sum^n_{i=1} {x_i}^2

について補足します。
はじめに n=3のときの左辺を素直に計算してみます。

 \displaystyle
\sum^3_{i \ne j} x_i x_j = 2x_1 x_2 + 2x_1 x_3 + 2x_2 x_3

続いて右辺の

 \displaystyle
(\sum^3_{i=1} x_i)^2

を計算してみると、

 \displaystyle
(\sum^3_{i=1} x_i)^2 = (x_1 + x_2 + x_3)(x_1 + x_2 + x_3) = x_1^2 + x_2^2 + x_3^2 + 2x_1 x_2 + 2x_1 x_3 + 2x_2 x_3

と、二乗の項を除けば

 \displaystyle
\sum^3_{i \ne j} x_i x_j

と一致することが分かりました。

...

さて、共分散が求まったので分散の計算の続きをします。

 \displaystyle \begin{split}
\mathrm{V} [ \bar{x} ] 
&= \frac{1}{n^2} \mathrm{V} [ \sum^n_{i=1} x_i ]  \\
&= \frac{1}{n^2} (n \mathrm{V} [ x_1 ] - n(n-1) (\frac{\mathrm{V} [ x_1 ]}{N-1}) \\
&= \frac{\sigma^2}{n} (1 - (\frac{n-1}{N-1})) \\
&= \frac{N-n}{N-1} \cdot \frac{1}{n}\sigma^2
\end{split}

と、無事に有限修正項で修正した標本分散を導出することが出来ました。
おしまい。

参考記事

www.hello-statisticians.com