Cou氏の徒然日記(2022)

ほのぼの日記ブログです。

統計検定2級への道 その15 -t分布-

coublood.hatenablog.com

 

引き続き、統計検定のお勉強。

■ t-分布

「自由度  n のt-分布」とは確率密度関数が以下の  f(x) である確率分布のことを言う。

 \hspace{10mm} \displaystyle f(x) = \frac{\Gamma(\frac{n+1}{2})} {\sqrt{n\pi} \cdot \Gamma(\frac{n}{2})} \biggl(1+\frac{x^{2}}{n}\biggl)^{-\frac{n+1}{2}}

★ ガンマ関数

 \displaystyle \hspace{10mm} \Gamma(x) = \displaystyle \int_{0}^{\infty} t^{x-1} e^{-t} dt

☆ ガンマ関数の特性

  •  \Gamma(n+1) = n \Gamma(n)
  •  \Gamma(n+1) = n!
  •  \Gamma(1) = 1

 

…といっても、この式を覚えるのは大変で、計算も大変なので、統計検定2級の範囲では特に覚える必要はなく、どちらかというと、t-分布とは何かということと、t-分布表のp-値の見方を覚えれば問題ないようです。

 

 N(\mu, \sigma^{2}) に従う母集合から無作為に取り出した標本  X_{1}, X_{2}. \cdots, X_{n} について、標本平均を  \overline{X}  とする。

 

 \hspace{10mm} \overline{X} = \displaystyle \frac{X_{1}+X_{2}+\cdots+X_{n}}{n}

 

この時、標本平均 \overline{X} N \left( \mu, \frac{ \sigma^{2}}{n} \right) に従う。

不偏分散を  U^{2} = \displaystyle \frac{1}{n-1} \sum_{i=1}^{n} (X_{i}-\overline{X})^{2} とした場合、この標本平均  \overline{X} の確率分布を

 \hspace{10mm} T= \displaystyle \frac{\overline{X}-\mu} {\frac{U}{\sqrt{n}}}

で変換すると、この  T「自由度  n-1 の t-分布」に従う

 

■ t-分布を考える意味

標本サイズが大きければ、中心極限定理から、その標本平均は正規分布になるということですが、標本サイズが小さい場合(大きくない場合)は、当然正規分布にならないことになるため、正規分布で考えてしまうと、誤差が発生してしまいます。

そうなると、信頼区間を考えた場合、その誤差により、仮説検定で帰無仮説を棄却するかどうかの判定が正しく出来ないことになってしまいます。

 

[自由度1のt-分布 と 標準正規分布のグラフ]

 青線: \hspace{10mm} f(x) = \displaystyle \frac{1}{\pi(1+x^{2})}

 赤線: \hspace{10mm} g(x) = \displaystyle \frac{1}{\sqrt{2\pi}} e^{-\frac{x^{2}}{2}}

f:id:coublood:20220311193126p:plain

 

標本が増えて、自由度が増えると、徐々に裾が狭くなり、中央に集まり、信頼度区間の精度も上がります。

実際、「自由度  n の t-分布」について、自由度  n → \infty となると、その分布は「標準正規分布  N(0,1) 」になります。

 

このt-分布の理解が結構時間がかかりましたね。