■高次元のパラドックスとスターリングの公式(その2)

 (その1)では2次元・3次元といった親しみのある空間での直観が高次元では無意味になることをみてきました.そこでは超立方体の中に一様に分布する点の配置を考えて,それが内接超球の中にどれくらい含まれるかを調べた結果,大部分のデータは超球外に位置することが判明したのでした.

 (その2)では確率構造の入った高次元空間を調べてみます.1次元正規分布ならば,区間

  [μ−1σ,μ+1σ]に68.3%,

  [μ−2σ,μ+2σ]に95.4%,

  [μ−3σ,μ+3σ]に99.7%

の観測値が入ります.ほとんどの観測値が[μ−3σ,μ+3σ]に入ることを利用して,工場では品質管理を行っていますが,それが3σ法であって,有用なQCテクノロジーの1つになっています.

 一方,d次元正規分布は,

  p(x1,x2,x3,・・・,xd)=1/(2πσ^2)^(d/2)exp{-(x1^2+x^2+・・・+xd^2)/2σ^2}

で与えられます.多次元正規分布の場合,低次元の場合とは対照的に密度の裾にあたる領域に大部分のデータが存在することになるのですが,まずそのことをみてみましょう.

===================================

【1】σ,2σ,3σの領域内に納まる確率

 当該の積分

  ∫∫・・∫∫π^(-n/2)exp(−x1^2−・・・−xn^2)dx1dx2・・dxn

は多重ガウス積分ですから,

  π^(n/2)γ(n/2,x)/Γ(n/2)

 したがって,求める確率はγ(n/2,x)/Γ(n/2)より,自由度nのχ^2分布の上側確率で与えられることになります.

 χ^2分布は不完全ガンマ関数と密接に関係していて,その分布関数は,超幾何関数を使って

  F(x)=(x/2)^(d/2)1F1(d/2,1+d/2,-x/2)/Γ(1+d/2)

    =(x/2)^(d/2)exp(-x/2)1F1(1,1+d/2,x/2)/Γ(1+d/2)

のようにも表現されます.

d     σ       2σ       3σ

1 .682689 .954499 .997300

2 .393469 .864664 .988891

3 .198748 .738535 .970709

4 .090204 .593994 .938900

5 .037434 .450584 .890935

6 .014387 .323323 .826421

7 5.171463E-3 .220222 .747343

8 1.751622E-3 .142876 .655770

9 5.624972E-4 .088587 .562725

10 1.721156E-4 .052653 .467896

11 5.038994E-5 .030082 .378107

12 1.416493E-5 .016563 .297069

13 3.834734E-6 .008808 .227056

14 1.002379E-6 4.533805E-3 .168949

15 2.535644E-7 2.262655E-3 .122482

16 6.219690E-8 1.096718E-3 .086586

17 1.481974E-8 5.170670E-4 .059738

18 3.435490E-9 2.374473E-4 .040257

19 7.759389E-10 1.063403E-4 .026520

20 1.709670E-10 4.649807E-5 .017092

30 1.461050E-17 3.871230E-9 7.366052E-5

40 2.435465E-25 6.443731E-14 6.716488E-8

50 1.188185E-33 3.170786E-19 1.850098E-11

100 0 0 1.833433E-34

 1次元であれば3σを外れる確率はわずか千に三つにすぎないのですが,高次元化に伴い次第に中心部は過疎化し,10次元では半分以上が3σの郊外に移り住み,30次元では99%以上が裾の領域に集まるという結果になるのです.→確率計算に使用したプログラムはコラム「格子上の確率論(その5)」に掲げてあります.

===================================

【2】酔歩が平均距離以内に滞在する確率

 対称単純ランダムウォーク,すなわち,p=q=1/2の場合は

  E(xn)=0,V(xn)=n

で与えられますが,ド・モアブル=ラプラスの定理から,n回のステップののち,その人がx=kのところにいる確率は,nを十分大にすると平均0,分散σ2=nの正規分布N(0,n)に近づくことを示しています.したがって,原点からの距離が√nの領域内に納まる確率は68.3%,2√nの領域内に納まる確率は95.4%と計算されます.

 1次元酔歩が√nのオーダーであることが示されましたが,これは拡散現象では一般的にいえることです.すなわち,d次元酔歩が互いに独立な1次元酔歩d個から構成されると考えると,nステップののち,

  E(Wn)=(0,0,,・・・0)

  E‖Wn‖^2=ΣE|Wk,n|^2=d×(√n/d)^2=n

したがって,

  E‖Wn‖≦√E‖Wn‖^2=√n

ですから,原点(0,0,,・・・,0)を中心として拡散し,原点からの距離が√nの領域内に納まると考えられます.

 格子上のランダムウォークは,ブラウン運動などの拡散モデルとしてよく知られていますが,格子のモデルはブラウン運動の離散化とみなすことができるので,局所的にみると離散的過程であっても,大域的にみると連続空間に分布した連続的なガウス分布とみることができます.

 したがって,d次元酔歩が原点(0,0,,・・・,0)を中心として拡散し,原点からの距離がσ=√nの領域内に納まる確率は,自由度dのχ^2分布で近似されることがわかります.

 また,d次元正規分布において,原点からのユークリッド距離の確率分布は,χ^2分布の平方根分布であるχ分布になります.とくに,自由度1のχ分布は半正規分布:

  f(x)=1/σ√(2/π)exp(-x^2/2σ^2)

であり,この分布は期待値が0の正規分布:

  f(x)=1/σ√(2π)exp(-x^2/2σ^2)

をy軸で折り返した分布になっています.また,自由度2のχ分布はレイリー分布:

  f(x)=x/σ^2exp(-x^2/2σ^2)

自由度3のχ分布はマクスウェル分布:

  f(x)=2^(3/2)/σ^3x^2exp(-x^2/2σ^2)

と命名されています.また,自由度dのχ分布の平均値は

  Γ((d+1)/2))/Γ(d/2)√(2)σ

で与えられます.

 この節では,原点からの拡散が平均距離までに納まる確率を求めてみることにしますが,ガンマ関数の漸近展開式(スターリングの公式)

  Γ(t)=√(2π/t)t^texp(-t){1+1/(12t(+1/(288t^2)-139/(51840t^3)-571/(2488320t^4)+・・・}

より,

  Γ((d+1)/2))/Γ(d/2)√2=√(d){1-1/(4d)+1/(32d^2)+5/(128d^3)-21/(2048d^4)-399/(8192d^5)+869/(65536d^6)+・・・}

と漸近展開されますから,dが大きい領域ではほぼ√(d)σまでに納まる確率に一致します.

  Γ((d+1)/2))/Γ(d/2)√(2)σ〜√(d)σ

d  平均距離 d  平均距離

1 .575062 13 .513665

2 .540061 14 .513124

3 .533050 15 .512642

4 .527316 16 .512210

5 .523730 17 .511818

6 .521238 18 .511463

7 .519383 19 .511137

8 .517937 20 .510838

9 .516769 30 .508756

10 .515801 40 .507547

11 .514983 50 .506730

12 .514279 100 .504730

 計算の結果,原点からの拡散が平均距離までに納まる確率は60%から50%で,この後単調に減少し,いずれ一定の値に収束するかのように見えました.自由度dのχ分布の平均値:Γ((d+1)/2))/Γ(d/2)√(2)σ,あるいは同じことですが,χ^2分布

  F(x)=(x/2)^(d/2)1F1(d/2,1+d/2,-x/2)/Γ(1+d/2)

    =(x/2)^(d/2)exp(-x/2)1F1(1,1+d/2,x/2)/Γ(1+d/2)

において

  x=2*{Γ((d+1)/2))/Γ(d/2)}^2 〜 d

とおいた値はd→∞のとき,はたして一定値に収束するのでしょうか?

 当該関数は単調減少関数で下限≧0なので,数学的には収束しますし,グラフを描くと極限値は0.5であろうと思われます.問題はその証明です.χ^2分布の分布関数は,

  F(x)=γ(d/2,x/2)/Γ(d/2)=1-Γ(d/2,x/2)/Γ(d/2)

    =(x/2)^(d/2)exp(-x/2)Σ(x/2)^k/(k+n/2)!

とも書けるのですが,スターリングの法則

  Γ(1+d/2)=(d/2)! 〜 √(πd)(d/2)^(d/2)exp(-d/2)

あるいは,不完全ガンマ関数の漸近展開

  Γ(a,x)=exp(-x)U(1-a,1-a,x)

      〜 x^(1-a)exp(-x)2F0(1-a,1,-1/x)

      =x^(a-1)exp(-x){1+(a-1)/x+(a-1)(a-2)/x^2+・・・}

      =x^(a-1)exp(-x){1+O(1/x)}

を用いても最終収束値が0.5になることを示すことができませんでした.式の形をみる限り,何とか極限値の厳密解は求められそうな気はするのですが,いまのところ,明示的な関係は見いだせていません.

===================================

【3】ベータ分布

 ベータ関数(オイラーの第1種積分)は,

  B(a,b)=∫(0,1)t^(a-1)(1-t)^(b-1)dt t=0~1

によって定義されます.ここで積分変数をtからu=(1-t)/tによってuに変えると,

  B(a,b)=∫(0,∞)u^(a-1)/(1+u)^(a+b)du u=0~∞

が得られます.

 ベータ関数とガンマ関数との間には

  B(a,b)=Γ(a)Γ(b)/Γ(a+b)

の関係がありますから,ベータ関数はガンマ関数の兄弟分にあたります.

  Γ(1/2)=√π

を得るにはベータ関数が用いられます.この関数においてt=sin^2θとおくと

  dt=2sinθcosθdθ

ですから

  B(a,b)=∫(0,1)t^(a-1)(1-t)^(b-1)dt

   =2∫(0,π/2)sin^(2a-1)θcos^(2b-1)θdθ

 ここで,a=1/2,b=1/2とすると

  B(1/2,1/2)=2∫(0,π/2)dθ=π

  Γ^2(1/2)/Γ(1)=π

においてΓ(1)=1であり,

  Γ(1/2)=√π

となります.

 ベータ関数を一般化すると,

  ∫(a,b)(x-a)^m(b-x)^ndx=m!n!/(m+n+1)!(b-a)^(m+n+1)

が得られますが,これらは受験参考書に必ず書いてある

  ∫(a,b)(x-a)(x-b)dx=-1/6(b-a)^3

  ∫(a,b)(x-a)(x-b)^2dx=1/12(b-a)^4

という公式の一般化になっています.

 ベータ関数の一般化というと,超幾何関数のオイラー型積分表示

  2F1(a,b,c,x)=Γ(c)/Γ(a)Γ(c-a)∫(0,1)t^(a-1)(1-t)^(c-a-1)(1-xt)^(-b)dt

も思いつくところです.この積分表示は(1-xt)^(-b)のテイラー展開

  (1-xt)^(-b)=Σ(-b,n)(-xt)^n=Σ(b,n)/n!(xt)^n

  (b,n)=Γ(b+n)/Γ(b)

  B(a,b)=Γ(a)Γ(b)/Γ(a+b)

を組み合わせることで示されます.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

 ベータ関数は非負ですから,積分すると1になるように規格化するとベータ分布が得られます.ベータ分布はその定義域が0と1の間にある確率現象のモデルとして使われますが,その標準型は次のような確率密度関数になります.

  f(x)=x^(α-1)(1-x)^(β-1)/B(α,β) 0<x<1

   mean=a/(a+b)

   variance=ab/(a+b+1)/(a+b)^2

   mode=(a-1)/(a+b-2)

 2つの形状母数α,βを含み,これらの値により密度関数は単峰形,J字型,U字型など種々の形状をとることができます.たとえば,両母数がともに1より大きければ単峰形となり,α<βのとき右の方へゆがみ,α>βのとき左の方へゆがみ,母数を入れかえることによって鏡像が得られます.β=1のときがべき乗分布でJ字型分布,α=β=1/2のときが逆正弦分布で,U字型の形状をとります.また,α=β=1のとき一様分布になります.

 任意の範囲(a<x<b)にベータ分布を拡張させるには

  y=(x−a)/(b−a)

とおいて変数変換します(0<y<1).試験成績のように(0,100)の間に分布するデータでは,a=0,b=100とおいて変数変換ののちベータ分布をあてはめます.

 変数xの変域が両側から制限されているのですが,形はかなりフレキシブルに変化するという特徴を利用して多方面に応用されています.たとえば,試験の得点は正規分布になると考えられているようです(正規分布神話)が,試験成績のように上限・下限が存在してしかも対称形になるとは限らないデータではむしろベータ分布などを適用すべきとする意見もあり,実際,共通1次試験の点数分布にはベータ分布が一番よくあてはまるといわれています.右にゆがんだ分布も表現できる分布なのです.

 ベータ分布Beta(α,β)は,xとyが独立でそれぞれガンマ分布Gamma(λ,α),Gamma(λ,β)に従うとき,x /(x+y)の分布として求められます.自由度mのカイ2乗分布は,自由度m/2のガンマ分布ですから,2つの確率変数が独立に,それぞれ自由度m,nのカイ2乗分布にしたがうとき,x /(x+y)の分布はBeta(m/2,n/2)となります.

===================================

【4】酔歩とベータ分布

 球に相当するn次元の図形を超球と呼びます.n次元単位超球{x1^2+x2^2+・・・+xn^2≦1}の体積をVnとすると,

  Vn=π^(n/2)/Γ(n/2+1)

で与えられます.また,単位超球の表面積Sn-1はnVnとなります.

 ベータ分布は単位球面上で一様に分布する点の配置に密接な関係があります.x=(x1,x2,・・・,xn)を単位球面Sn-1上で一様分布する点とすると,

「確率変数

  y=x1^2+x2^2+・・・+xk^2 0<k<n

はベータ分布Beta(k/2,(n-k)/2)に従う」

ことを証明してみましょう.

(証明)

 z1,z2,・・・,znを標準正規分布にしたがうn個の独立な確率変数とします.すなわち,ziの密度関数はいずれも

  (2π)^(-1/2)exp(-z^2/2)

z=(z1,z2,・・・,zn)の密度関数は

  (2π)^(-n/2)exp(-(z1^2+z2^2+・・・+zn^2)/2)

 この密度の大きさは原点からの距離だけで決まり,方向には無関係ですから,xi=zi/|z|とおくとx=(x1,x2,・・・,xn)は単位球面上で一様分布する点となります.このとき,

  x1^2+x2^2+・・・+xk^2=(z1^2+z2^2+・・・+zk^2)/(z1^2+z2^2+・・・+zk^2+zk+1^2+・・・+zn^2)

z1^2+z2^2+・・・+zk^2は自由度kのカイ2乗分布,zk+1^2+・・・+zn^2は自由度n−kのカイ2乗分布にしたがいますから,x1^2+x2^2+・・・+xk^2の分布はベータ分布Beta(k/2,(n-k)/2)となります.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

(1)正弦波の確率分布

 逆正弦分布の確率密度関数は

  f(x)=1/π・{x(1-x)}^(1/2)

となりますが,n=2,k=1すなわち円周上に一様分布する点,正弦波の確率分布に関係して出現します.

 たとえば,正弦波がx=asinθで与えられ,θが−π/2≦θ≦π/2の範囲の一様分布に従うとき,xは1つの連続確率変数と考えることができます.そして,xの確率密度関数はp(θ)=1/2πより,

  f(x)dx=2p(θ)dθ=1/π・{a^2-x^2}^(1/2)

を得ることができます.この分布は逆正弦分布の確率密度関数を位置=尺度変換したものとなっています.

(2)ランダムウォークの確率分布

 コインを投げて表がでれば右へε,裏がでれば左へε進む人のモデルを考える.n回の試行ののち,その人がx=kεのところにいる確率は,nを十分大にすると,2項分布の正規近似により,分散σ^2=nε^2の正規分布(0,nε^2)に近づきます.

 それでは,彷徨の仕方はどうなるでしょうか? 右,左へ進む確率はそれぞれ1/2ですから,原点の近くをウロウロし,右,左の領域に半分ずつ存在したと予測するのが常識的ですが,この常識は破られます.実際にはどちらか片方にばかりにいる確率が大なのです.

 結論を先にいうと,この人が原点より右にいる時間をx(左にいる時間を1−x)とするとその確率密度は

  f(x)=1/π・{x(1-x)}^(1/2)

であり,対応する累積分布関数は

  F(x)=2/πarcsin(√x)

となります.

 この分布の平均は1/2ですが,そこはU字型分布の谷底であり,一番確率が小さいところになっています.つまり,右,左の領域に半分ずついるのは,もっとも起こりそうにない事象なのです.この分布はxが0または1に近いほど確率が高く0,1で発散する,ということは常にどちらか片側の領域にいることとよく符合しています.

 逆正弦分布はベータ分布の特別な場合であり,1次元ブラウン運動の滞在確率に関係して現れます.そしてその滞在確率の式中にarcsinが現れることから,「1次元ブラウン運動の逆正弦則」という名で呼ばれます.

 ランダムウォークのような非確定データは,統計的に取り扱われなければなりませんが,このように,ベータ分布は対称ランダムウォークなどマルコフ過程の解析に応用されています.

===================================

【5】ディリクレ分布(多変量ベータ分布)

 ガウス型超幾何関数

  2F1(a,b,c,x)=Γ(c)/Γ(a)Γ(c-a)∫(0,1)t^(a-1)(1-t)^(c-a-1)(1-xt)^(-b)dt

は一変数関数ですが,この節では超幾何関数ではなく,ベータ関数の多次元化・多変量化(別の方向への一般化)について考えることにします.

 ベータ関数を多変数化すると,ディリクレの積分公式

  ∫x1^(p1-1)・・・xm^(pm-1)(1−x1−・・・−xm)^(q-1)dx1・・・dxm

 =Γ(p1)・・・Γ(pm)Γ(q)/Γ(p1+・・・+pm+q)

が得られます.

 →[参]高木貞治「解析概論」岩波書店,p359

 積分すると1になるように規格化したものがディリクレ分布で,x1,x2,・・・xm-1,xmが独立でそれぞれ自由度2θiのカイ2乗分布にしたがうとして,

  xm=1−Σxi,yi=xi/Σxi

とおくと(y1,・・・,ym-1)の同時確率密度関数は

  f(y1,・・・,ym-1)=Γ(Σθi)/ΠΓ(θi)・Πyi^(θi-1)

 このm−1次元分布をディリクレ分布と呼びます.m=2のときがベータ分布であって,ベータ分布の多次元化とみなすことができます.また,ディリクレ分布の周辺分布はベータ分布になります.

===================================