■ランダムウォークの母関数と準超幾何関数(その47)
d次元正規分布は,
p(x1,x2,x3,・・・,xd)=1/(2πσ^2)^(d/2)exp{-(x1^2+x^2+・・・+xd^2)/2σ^2}
で与えられます.多次元正規分布の場合,低次元の場合とは対照的に密度の裾にあたる領域に大部分のデータが存在することになるのですが,まずそのことをみてみましょう.
===================================
【1】σ,2σ,3σの領域内に納まる確率
当該の積分
∫∫・・∫∫π^(-n/2)exp(−x1^2−・・・−xn^2)dx1dx2・・dxn
は多重ガウス積分ですから,
π^(n/2)γ(n/2,x)/Γ(n/2)
したがって,求める確率はγ(n/2,x)/Γ(n/2)より,自由度nのχ^2分布の上側確率で与えられることになります.
χ^2分布は不完全ガンマ関数と密接に関係していて,その分布関数は,超幾何関数を使って
F(x)=(x/2)^(d/2)1F1(d/2,1+d/2,-x/2)/Γ(1+d/2)
=(x/2)^(d/2)exp(-x/2)1F1(1,1+d/2,x/2)/Γ(1+d/2)
のようにも表現されます.
1次元であれば3σを外れる確率はわずか千に三つにすぎないのですが,高次元化に伴い次第に中心部は過疎化し,10次元では半分以上が3σの郊外に移り住み,30次元では99%以上が裾の領域に集まるという結果になるのです.
===================================