信頼区間とベイズ信頼区間について

混乱するのでまとめました。

信頼区間 Confidence interval

信頼区間区間推定の際に出てくる言葉です。

区間推定

データが X = \{ x_{n} \}_{n=1,\dots,N}として得られているとします。 このデータが確率分布 p(\cdot) から生成されていると仮定します。

区間推定では真のパラメーター \thetaがある区間 (L, U)に入る確率を 1-\alpha以上になるような L, Uを求めます。 具体的な形で書くと、

 
\begin{aligned}
P( L \le \theta \le U) \ge 1 - \alpha
\end{aligned}

この区間のことを信頼区間と言います。

LとUは標本分布から計算されます。 つまり、別のsampleで計算したら信頼区間の推定値は変わります。 真のパラメーター \thetaは定数なので、信頼区間に入っているかいないかのどちらかしかありえません。 そのため「区間 (L, U)に真のパラメーター \thetaが入っている確率が何々」とは言えません。 正確には、なんどもsampleを取り直して、区間推定を行えば、 「1-\alphaの確率で、真のパラメーター \thetaが入った区間 (L, U)がえられる。」

比較対象として点推定についても載せます。

おまけ:点推定(最尤推定

データが X = \{ x_{n} \}_{n=1,\dots,N}として得られているとします。 このデータが確率分布 p(\cdot) から生成されていると仮定します。 その際、モデルのパラメーターが \hat{\theta}で与えられるとします。

この時に、尤度を最大にするのが最尤推定です。 尤度とは

 
\begin{aligned}
L(\theta) = & p( X | \hat{\theta})
\end{aligned}

と書けて、要するに、パラメータを決めたときに、データ Xが得られる可能性のことです。 これを最大にするということは、最も尤もらしいパラメーター \hat{\theta}をえることです。

ベイズ信頼区間 Credible interval

ベイズ推定

ベイズ推定では、最尤推定とは異なり、パラメーター \thetaの分布を求めます。 事前分布 p(\theta)を仮定する必要があります。

 
\begin{aligned}
p( \theta | X ) = \frac{p(X | \theta) p(\theta)}{p( X)} 
\propto p(X | \theta) p(\theta)
\end{aligned}

左辺がパラメーター \thetaの事後分布です。

ベイズ信頼区間(Credible interval, Bayesian confidence interval)は 事後分布の両端を \frac{\alpha}{2}%分の面積だけ落として、残った 1-\alpha分の区間 (L, U) 1-\alphaベイズ信頼区間と呼びます。 この場合は、区間推定の時とは異なり、 \thetaが変数なので、 「 \theta区間 (L, U)にある確率は 1-\alphaである」と言えます。

参考文献