■ランダムウォークの母関数と準超幾何関数(その47)

d次元正規分布は,

  p(x1,x2,x3,・・・,xd)=1/(2πσ^2)^(d/2)exp{-(x1^2+x^2+・・・+xd^2)/2σ^2}

で与えられます.多次元正規分布の場合,低次元の場合とは対照的に密度の裾にあたる領域に大部分のデータが存在することになるのですが,まずそのことをみてみましょう.

===================================

【1】σ,2σ,3σの領域内に納まる確率

 当該の積分

  ∫∫・・∫∫π^(-n/2)exp(−x1^2−・・・−xn^2)dx1dx2・・dxn

は多重ガウス積分ですから,

  π^(n/2)γ(n/2,x)/Γ(n/2)

 したがって,求める確率はγ(n/2,x)/Γ(n/2)より,自由度nのχ^2分布の上側確率で与えられることになります.

 χ^2分布は不完全ガンマ関数と密接に関係していて,その分布関数は,超幾何関数を使って

  F(x)=(x/2)^(d/2)1F1(d/2,1+d/2,-x/2)/Γ(1+d/2)

    =(x/2)^(d/2)exp(-x/2)1F1(1,1+d/2,x/2)/Γ(1+d/2)

のようにも表現されます.

 1次元であれば3σを外れる確率はわずか千に三つにすぎないのですが,高次元化に伴い次第に中心部は過疎化し,10次元では半分以上が3σの郊外に移り住み,30次元では99%以上が裾の領域に集まるという結果になるのです.

===================================