Cou氏の徒然日記(2022)

ほのぼの日記ブログです。

統計検定2級への道 その18 -カイ二乗分布による適合度・独立性検定-

coublood.hatenablog.com

 

引き続き、統計検定のお勉強。

カイ二乗分布による適合度検定

検定対象の各属性を  (A_{1}, A_{2}, \cdots , A_{k}) とする。

その各属性に対する観測度数 (c_{1}, c_{2}, \cdots , c_{k}) 、その各属性での期待確率 (p_{1}, p_{2}, \cdots , p_{k}) とする。

この時、全サンプル数を  n とすると、確率度数 (np_{1}, np_{2}, \cdots , np_{k}) となる。

 

この時の検定としては、

帰無仮説として、定量である  \displaystyle \sum_{i=1}^{k} \frac{c_{i} - np_{i}}{np_{i}} の値が、カイ二乗分布  \chi^{2}(k-1) に従う分布であるため、カイ二乗分布  \chi^{2}(k-1) の分布から、例えば95%信頼区間に入っているかどうかで、棄却するかどうかを判定すればよいです。

 

カイ二乗分布による独立性検定

2つの分類が独立であるかどうかの検定になります。

  • 帰無仮説  H_{0} :2つの分類が独立である(関連性がない)
  • 対立仮説  H_{1} :2つの分類が独立ではない(関連性がある)

 

まず、検定対象の1つ目の分類を  (A_{1}, A_{2}, \cdots ,  A_{k}) とする。

同様に検定対象の2つ目の分類を  (B_{1}, B_{2}, \cdots , B_{l}) とする。

そして、各属性を、例えば、 A_{2}とB_{3} の組み合わせの場合  C_{23} のように表した場合に、それぞれの  C_{ij} についての「理論値  E_{ij}」を算出。

続いて、その理論値を使って、ズレの2乗を理論値で割ったものの総和を算出。

 \hspace{10mm} \displaystyle \sum_{i=1}^{k} \sum_{j=1}^{l} \frac{(C_{ij} - E_{ij})^{2}}{E_{ij}}

これは、カイ二乗分布  \chi^{2}\left(\left(k-1\right)\left(l-1\right)\right) に従うので、上記で求めた p値と カイ二乗分布から有意水準以下かどうかで、帰無仮説を棄却するかどうかで判定になります。

 

 

最初はカイ二乗分布は、母分散の検定くらいかなと思っていましたが、案外色々な検定に使えるんだなとびっくりですね。