コラム「コーシー分布の離散化」では連続分布の離散化を扱ったが,今回のコラムではその逆,離散分布の連続化の例として連続ポアソン分布を考えてみたい.
ポアソン分布
p(x)=exp(-λ)λ^x/x! x=0,1,2,・・・
を連続化する最も簡単な方法は階乗関数x!をガンマ関数Γ(x+1)で置き換えることであるが,はたしてたこれでうまくいくのだろうか?
f(x)=exp(-λ)λ^x/Γ(x+1) x≧0
===================================
【1】2項分布
2項分布は1回の実験で2通りの結果のいずれか1つのみが生ずるn回の試行における最も基本的なモデルです.離散分布の解説ではしばしばポリアの壷と呼ばれるモデル(urn model)が用いられますが,ここでは不良品の含まれたロットで代用することにします.不良率pの製品のロットから,n個の製品を抽出して調べる場合について考えてみましょう.
1回ずつもとに戻して調べる復元抽出では,取り出した1個の製品について不良品である確率がp,良品である確率がq=1-pですから,x個が不良品(n-x個が良品)になる確率は
p(x)=nCxp^x(1-p)^(n-x) x=0,1,2,・・・,n
で表されます.
この分布の形状はp=1/2のとき対称,p<1/2のとき正に,p>1/2のとき負にゆがみます.したがって,一般には平均値は最頻値とは異なります.しかし,p≠1/2でもnが十分大きい場合には非対称性は減少し,2項分布は正規分布で近似できるほぼ対称的な形になることが知られています(2項分布のガウス近似).
母平均=np
母分散=npq
より,母平均はつねに母分散より小さくなります.また,変動係数の平方をつくってみると
μ2/μ1^2=(1-p)/np
これより,変動係数そのものはnの平方根に逆比例しますから,観測数を増加させれば誤差が小さくなることを示していて,このことは常識的にも了解できるでしょう.
[1]2項分布の再生性
同じ確率pをもつ独立な2項確率変数の和の分布は2項分布になります.
xi〜B(ni,p) Σxi〜B(Σni,p)
なお,差の分布は2項分布にはならず,ベッセル関数を用いて表される分布になります.
[2]2項分布の正規近似
nが十分大きいとき2項分布は正規分布で近似できます(ド・モアブル=ラプラスの定理).これは中心極限定理の特別な場合にあたり,エーレンフェストのふるいという簡単な実験装置を用いると視覚的にもそれを確認することができます.
nが20を超えると2項分布の計算は面倒になりますがが,ガウス分布なら計算は簡単ですから,nが大きいと2項分布がガウス分布で近似できるということは実用上きわめて有用です.2項分布は超幾何分布の代用としても応用されていますが,幾何分布,負の2項分布,ポアソン分布なども2項分布との関連が強い分布です.
===================================
【2】ポアソン分布
2項分布は正規分布で近似されるというのが「ド・モアブル=ラプラスの定理」であることはすでに述べましたが,2項分布において,nが十分大きくpが小さい値をとるならば,それはポアソン分布で近似されます.
(証明)2項分布において,母平均=npを一定の値λに保って,p→0,n→∞にしてみましょう.
2項分布において,p(x+1)/p(x)という比をつくってみると
p(x+1)/p(x)=(n-x)/(x+1)・p/(1-p)
p→0,n→∞であれば,有限のxに対してはp(x+1)/p(x)≒np/(x+1)
また,テイラー展開より,p(0)=(1ーp)^n≒exp(-np)
これらの結果を組み合わせれば,p(x)=(np)^x/x!exp(-np)
したがって,極限では
p(x)=exp(-λ)λ^x/x! x=0,1,2,・・・
になります.これはポアソン分布を示す式にほかなりません.
p→0,n→∞ですから,ポアソン分布とは1回の試行では稀にしか起きない現象の非常に多くの試行での生起回数の分布モデルと解釈できます.
ポアソン分布にはパラメータは1個しかなく,また,ポアソン分布では母平均と母分散が等しくなります(平方根則の根拠).
母平均=λ
母分散=λ
ということは母平均が決まれば分布の形が決まってしまうことを意味しています.平均値が既知の分布はポアソン分布で近似できるのですが,ポアソン分布するデータの取り扱い安さも取り扱い難さもここに端を発しているのです.→教訓「ポアソン分布は母数がひとつしかない独特の分布なのである!」
ポアソン分布は稀に起こる事象に適用されるため,一般にnpが5以下の非対称性のいちじるしい分布がすぐ連想されますが,npがもっと大きい領域にまで利用しても差し支えありません.そして,λが大きくなれば分布の形は次第に対称的な形になり,正規分布に近づきます(ポアソン分布のガウス近似).なお,変動係数の平方は
μ2/μ1^2=1/λ=1/np
というきわめて簡潔な形となります.
[1]稀な現象のモデル分布
時間的・空間的にランダムに起こる事象,たとえば,ある微小面積に落ちる雨滴数や放射性物質からある時間内に放射される放出粒子数などは,いずれもポアソン分布に従う確率変数とみなすことができます.
その際,ある一定の時間Tの間に事象の起こる数を数えることにして,得られた回数をνで表すことにします.この実験で時間Tの間に起こる事象の平均回数に関する最良推定値は観察された回数νですが,その誤差は平方根をとって√νとなります.これを「計数実験についての平方根則」と呼びます.
なお,一定時間内の放射線のカウント数を数える代わりに,あるカウント数に達するまでの時間を測定したら,どのような解析理論が組み立てられるかについては,
粟屋隆「時間測定法による放射能測定データの解析」
に詳しく述べられています.nカウントに達するまでの測定時間は連続量ですから,区間推定の目的にとってはカウント数だけに頼るよりはるかに適していると考えられます.
[2]ポアソン分布の再生性
ポアソン分布する変数の和の分布は平均Σλi,分散Σλiのポアソン分布になります.一方,差の分布は簡単には表せませんが,第1種変形ベッセル関数を用いて
p(x)=exp(-λ1-λ2)(λ1/λ2)^x/2Ix/2(2√(λ1λ2))
で表されます.
歴史を回顧すると,ボルトキュービッツは帝政プロシア軍隊の兵士の中で馬に蹴られて死亡した者の数の分布がポアソン分布でよく近似されること示しました.この事例はポアソン分布が統計学で使われた最初の例ではないかと考えられていて,実際のデータによくあてはまったことからポアソン分布のことを小数の法則と呼びました.
ポアソン過程にしたがう現象の時間間隔は指数分布にしたがうのですが,ポアソン分布からは指数分布やガンマ分布が導出できます.ポアソン分布は連続分布における正規分布と類似の役割をもち,多方面にまたがって応用されています.
===================================
【3】ガンマ関数
Γ(x)=∫(0,∞)t^(x-1)exp(-t)dt x>0
この無限積分をxの関数とみてガンマ関数Γ(x)といいます.
Γ(1)=∫(0,∞)exp(-t)dt=1
Γ(1/2)=∫(0,∞)t^(-1/2)exp(-t)dt
ここで,t=u^2とおくと∫(0,∞)exp(-u^2/2)du=√π/2(ガウス積分)より
Γ(1/2)=√π
が得られます.
オイラーの第2種積分とも呼ばれるガンマ関数Γ(x)には,
Γ(x+1)=xΓ(x)
の関係があり,次のような漸化式が成り立ちます.
Γ(x+1)=xΓ(x)=x(x-1)Γ(x-1)=・・・・
したがって,xが正の整数nのときにはΓ(n+1)=n!が成り立ち,ガンマ関数は階乗の一般形となっていることがわかります.階乗の解析的補間をしている関数がガンマ関数なのです.
Γ(n+1)=n!
よりガンマ関数は階乗の補間関数であり,初等的でない関数の中で最も簡単かつ重要な数学的関数といえます.また,引数の値が半整数のときには,
Γ(n+1/2)=√π・(2n)!/2^2nn!
です.なお,ガンマ関数Γ(x)はx>0について微分可能で,x=1.4616321449・・・で最小となります.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
[補] Γ(1)=1,Γ(1/2)=√π
であることを知っていればたいてい間に合いますが,ガンマ関数は結構いろいろなところで出てきますから,ぜひ計算ルーチンを用意しておきたいものです.引数の値が整数(n+1)でも半整数(n+1/2)でもないガンマ関数に対する正確な計算は複雑ですが,物理・化学・工学などの諸分野の問題の解を求めるときには,どうしてもそれらの解を数値を用いて表す必要がでてきます.現在では膨大な数表を用いることは稀であって,コンピュータが広く使用されていますから,必要に応じて計算する方法がとられています.
ガンマ関数Γ(x)の値を求めるには,いろいろな近似式があり,例えば,ベルヌーイ数Bnを含む漸近展開
logΓ(x)=xlogx−x+1/2log2π/x+Σ(−1)^(n-1)Bn/(2n)(2n-1)x^(2n-1)
は物理学(量子論)との関わりでしばしば用いられています.
このほかにも,ヘイスティングス,コリンジ,ハートらによる多項式展開などがありますが,ポリガンマ関数とのつながりを考えると,ヘイスティングスの多項式展開が優れていると思われます.ここでは,ヘイスティングス(Hastings)の8次多項式近似を紹介することにします.
Γ(x+1)≒1-0.577191652x+0.988205891x^2-0.897056937x^3+0.918206857x^4-0.756704078x^5+0.482199394x^6-0.193527818x^7+0.035868343x^8
(岩波全書「数学公式V」森口,宇田川,一松著).
この近似式は有効範囲が0≦x≦1に限られていますが,ガンマ関数にはΓ(x+1)=xΓ(x)の関係があり,この漸化式を繰り返し適用して,0≦x≦1の範囲になるように再帰的な方法を用いればx≧1にも拡張することができます.また,ガンマ関数Γ(x)はxが大きくなるとすぐにオーバーフローエラーを起こしてしまいますので,プログラムでは
ln(Γ(x))=ln(Γ(x+1))−ln(x)
によってその対数ln(Γ(x))を求めて飽和現象を回避します.
===================================
【4】連続ポアソン分布
前節より,ポアソン分布
p(x)=exp(-λ)λ^x/x! x=0,1,2,・・・
を連続化する最も簡単な方法は,階乗関数x!をガンマ関数Γ(x+1)で置き換えることと考えられます.
f(x)=exp(-λ)λ^x/Γ(x+1) x≧0
これが密度関数であるためには
∫f(x)dx=1
である必要がありますが,∫f(x)dλ=1は成り立っても肝心の∫f(x)dxがうまく求められません.しかし,近似的に
∫f(x)dx≒1
∫xf(x)dx≒λ
∫(x-λ)^2f(x)dx≒λ
は成り立つと思われます.
連続ポアソン分布も母数がひとつしかない独特の分布になっています.このままでは取り扱いにくいので,位置・尺度母数λの他にもう一つ尺度母数θを追加してみます.
g(x)=exp(-λ)λ^(x/θ)/θΓ(x/θ+1) x≧0
∫g(x)dx≒1
∫xg(x)dx≒λθ
∫(x-λθ)^2g(x)dx≒λθ^2
===================================