引き続き、統計検定のお勉強。
■ ロジスティック回帰
「重回帰分析」は予測したい目的変数が連続的な数値データである必要がありますが、それに対して、目的変数が2値のカテゴリデータの場合は、重回帰分析ができません。
その2値のカテゴリデータの場合の「可能性」を予測することをロジスティック回帰の分析になります。
よくあるのが、受験生の受験合否の予測などですね。
各科目の成績を元に、そこから目的の学校(例えば高校、大学など)の合否を判定する場合などです。
各科目の点数・平均点・分散などの情報を入力として、そこから合格率を算出。
その合格率から合否を予想する流れですね。
この予測の中で出てくるのが、シグモイド関数。
=
- 0の場合は、0.5
- マイナス無限大の場合は、0に収束
- プラス無限大の場合は、1に収束
という関数。
つまり、任意の入力値を、「0から1の範囲」に圧縮することができます。
あとはここから求めた予測率から、
- いくつ以上なら「○」
- いくつ以下なら「×」
と定義すればいいです。
ただ、実際はここが難しいところなんでしょうけどね。
過去のサンプルや実績からどこに判定ラインを置くか、そこ次第で精度が変わっていってしまいますので。