The Cinema, Actually

あんまり映画の話はしません。

小標本Bin(n,p)の区間推定(精密法)

二項母集団の区間推定について

正規分布などと違って、離散的なので上側ε/2はムリ

・大標本⇒正規分布に近似 ←これはかんたん

・小標本⇒精密法(連続的なF分布へとに変換)←こっちはちょっとややこしい

 

さて、今日はこの精密法とやらとずっと格闘していたのだが、こいつは思ってたよりくせものでした。特にその導出過程。

手持ちの本にはぜんぜん載ってなかったのでグーグルせんせで調べてみると

①分布関数を愚直に部分積分

②不完全β関数を経由

などのやり方が見つかった。

とはいえ、①はいろんな分布の密度関数や分布関数をおさえておかないと積分も何もできないし、②だって不完全β関数とやらを覚えねばならん、、暗記量は極力少なくしたいじゃないすか。

そこで、直感的に理解しやすく、かつ、流れを覚えればいろんな分布同士の関係も同時に覚えられる方法を小一時間(嘘、5時間くらい)考えまして、、、一応それらしきものに辿り着いたので、メモがてら下記に記す。2通り考えました。ポイントは(*1)と(*3)の考え方どす。

 

(i) Bin⇒U(k)⇒β⇒Γ⇒χ2⇒F

(ii) Bin⇒(ポアソン過程)⇒Γ⇒χ2⇒F

 

【前提条件】

{X_i}~Be(p)  信頼区間:1-ε

Y:=Σ(i=1~n)X_i ~ Bin(n,p)

実現値 y=k として

 

pの信頼区間は①②を満たす(仮想的に連続と見立てる)

Pr[Bin(n,p)>k]>ε/2 ①

Pr[Bin(n,p)<k]>ε/2 ②

 

(i)Be⇒Bin⇒U(k)⇒β⇒Γ⇒χ2⇒⇒F

①について

Pr[Bin(n,p)>k]

=Pr[U(k)<p] (*1)

=Pr[β(k,n-k+1)<p]

=Pr[{n1F/(n_1F+n_2)}<p] (*2)

=Pr[F<n_2p/n_1q]

F~F(n_1,n_2)

n_1=2k, n_2=2(n-k+1)

 

まとめると

Pr[Bin(n,p)>k]=Pr[F(n_1,n_2) < n_2p/n_1q]>ε/2

⇔ n_2p/n_1q > {F(n_1,n_2)の(1-ε/2)点}

⇔ n_2p/n_1q > 1/{F(n_2,n_1)のε/2点} ①'

 

②についても同様にして

Pr[Bin(n,p)<k]

=1-Pr[Bin(n,p)≧k+1]

=1-Pr[β(k+1,n-k)≦p]

=Pr[β(k+1,n-k)>p]

=Pr[F(n'_1,n'_2)>n'_2p/n'_1q]

n'_1=2(k+1), n'_2=2(n-k)

 

まとめると

Pr[Bin(n,p)<k]=Pr[F(n'_1,n'_2)>n'_2p/n'_1q]>ε/2

⇔ n'_2p/n'_1q < {F(n'_1,n'_2)のε/2点} ②'

 

①' ②' より

(n_1)/{(n_2)F(ε/2)+(n_1)} < p < (n'_1)F'(ε/2)/{(n'_1)F'(ε/2)+(n'_2)}

n_1=2k, n_2=2(n-k+1), n'_1=2(k+1), n'_2=2(n-k)

F(ε/2)={F(n_2,n_1)のε/2点}

F'(ε/2)={F(n'_1,n'_2)のε/2点}

 

*1

U(k)は確率変数{U_i}(i=1~n)~U(0,1)の順序統計量(k番目)

Pr{確率pで起こる事象がk回以上}=Pr{確率pの中にk個以上のU_iが存在}

{U(1), ... U(k), U(k+1), ... | ... U(n)}

仕切りの左側をp、右側のq(=1-p)と見立てるとわかりやすい。

 

*2

Theorem: β(n_1,n_2)=Γ(n_1,a)/{Γ(n1,a)+Γ(n_2,a)} を利用

a=1/2として(Γ分布⇒χ2分布へと変換するため)

β(n1,n2)

=1/{1+Γ(n2,1/2)/Γ(n1,1/2)}

=1/{1+χ2(2n_2)/χ2(2n_1)}

=1/{1+(n_2/n_1)/F(n_1,n_2)}

 

 

(ii) Bin⇒Γ⇒χ2⇒F

①について

Pr[Bin(n,p)>k]

=Pr[Γ(k,p)<Γ(n-k+1,q)] (*3)

=Pr[Γ(k,p)/Γ(n-k+1,q)<1]

=Pr[2pΓ(k,p)/2qΓ(n-k+1,q)<p/q]  k=(n_1)/2, n-k+1=(n_2)/2 とおくと

=Pr[χ2(n_1)/χ2(n_2)<p/q]

=Pr[{χ2(n_1)/n_1}/{χ2(n_2)/n_2}<n_2p/n_1q]

=Pr[F(n_1,n_2)<n_2p/n_1q]

以下(i)と同様。

 

*3

二項分布をポアソン過程で考える。

事柄A:パラメータpのポアソン過程に従う⇒k回以上発生

事柄B:パラメータ1-p(=q)のポアソン過程に従う⇒n-k回以下発生

Bがn-k+1回発生するより先に、Aがk回発生

A(p)がk回発生するまでの待ち時間T1 < B(q)がn-k+1回発生するまでの待ち時間T2

つまり、Pr[Γ(k,p)<Γ(n-k+1,q)]