高次元のパラドックスとスターリングの公式（その２）

■高次元のパラドックスとスターリングの公式（その２）

　（その１）では２次元・３次元といった親しみのある空間での直観が高次元では無意味になることをみてきました．そこでは超立方体の中に一様に分布する点の配置を考えて，それが内接超球の中にどれくらい含まれるかを調べた結果，大部分のデータは超球外に位置することが判明したのでした．

　（その２）では確率構造の入った高次元空間を調べてみます．１次元正規分布ならば，区間

　　［μ－１σ，μ＋１σ］に６８．３％，

　　［μ－２σ，μ＋２σ］に９５．４％，

　　［μ－３σ，μ＋３σ］に９９．７％

の観測値が入ります．ほとんどの観測値が［μ－３σ，μ＋３σ］に入ることを利用して，工場では品質管理を行っていますが，それが３σ法であって，有用なＱＣテクノロジーの１つになっています．

　一方，ｄ次元正規分布は，

　　p(x1,x2,x3,･･･,xd)=1/(2πσ^2)^(d/2)exp{-(x1^2+x^2+･･･+xd^2)/2σ^2}

で与えられます．多次元正規分布の場合，低次元の場合とは対照的に密度の裾にあたる領域に大部分のデータが存在することになるのですが，まずそのことをみてみましょう．

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

【１】σ，２σ，３σの領域内に納まる確率

　当該の積分

　　∫∫・・∫∫π^(-n/2)ｅｘｐ（－ｘ1^2－・・・－ｘn^2）ｄｘ1ｄｘ2・・ｄｘn

は多重ガウス積分ですから，

　　π^(n/2)γ(n/2,x)／Γ(n/2)

　したがって，求める確率はγ(n/2,x)／Γ(n/2)より，自由度ｎのχ^2分布の上側確率で与えられることになります．

　χ^2分布は不完全ガンマ関数と密接に関係していて，その分布関数は，超幾何関数を使って

　　F(x)=(x/2)^(d/2)1F1(d/2,1+d/2,-x/2)/Γ(1+d/2)

　　　　=(x/2)^(d/2)exp(-x/2)1F1(1,1+d/2,x/2)/Γ(1+d/2)

のようにも表現されます．

ｄ　　　　　σ　　　　　　　２σ　　　　　　　３σ

1 .682689 .954499 .997300

2 .393469 .864664 .988891

3 .198748 .738535 .970709

4 .090204 .593994 .938900

5 .037434 .450584 .890935

6 .014387 .323323 .826421

7 5.171463E-3 .220222 .747343

8 1.751622E-3 .142876 .655770

9 5.624972E-4 .088587 .562725

10 1.721156E-4 .052653 .467896

11 5.038994E-5 .030082 .378107

12 1.416493E-5 .016563 .297069

13 3.834734E-6 .008808 .227056

14 1.002379E-6 4.533805E-3 .168949

15 2.535644E-7 2.262655E-3 .122482

16 6.219690E-8 1.096718E-3 .086586

17 1.481974E-8 5.170670E-4 .059738

18 3.435490E-9 2.374473E-4 .040257

19 7.759389E-10 1.063403E-4 .026520

20 1.709670E-10 4.649807E-5 .017092

30 1.461050E-17 3.871230E-9 7.366052E-5

40 2.435465E-25 6.443731E-14 6.716488E-8

50 1.188185E-33 3.170786E-19 1.850098E-11

100 0 0 1.833433E-34

　１次元であれば３σを外れる確率はわずか千に三つにすぎないのですが，高次元化に伴い次第に中心部は過疎化し，１０次元では半分以上が３σの郊外に移り住み，３０次元では９９％以上が裾の領域に集まるという結果になるのです．→確率計算に使用したプログラムはコラム「格子上の確率論（その５）」に掲げてあります．

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

【２】酔歩が平均距離以内に滞在する確率

　対称単純ランダムウォーク，すなわち，ｐ＝ｑ＝１／２の場合は

　　Ｅ（ｘn）＝０，Ｖ（ｘn）＝ｎ

で与えられますが，ド・モアブル=ラプラスの定理から，ｎ回のステップののち，その人がｘ＝ｋのところにいる確率は，ｎを十分大にすると平均０，分散σ2=ｎの正規分布Ｎ（０，ｎ）に近づくことを示しています．したがって，原点からの距離が√ｎの領域内に納まる確率は６８．３％，２√ｎの領域内に納まる確率は９５．４％と計算されます．

　１次元酔歩が√ｎのオーダーであることが示されましたが，これは拡散現象では一般的にいえることです．すなわち，ｄ次元酔歩が互いに独立な１次元酔歩ｄ個から構成されると考えると，ｎステップののち，

　　Ｅ（Ｗn）＝（０，０，，・・・０）

　　Ｅ∥Ｗn∥^2＝ΣＥ｜Ｗk,n｜^2＝ｄ×（√ｎ／ｄ）^2＝ｎ

したがって，

　　Ｅ∥Ｗn∥≦√Ｅ∥Ｗn∥^2＝√ｎ

ですから，原点（０，０，，・・・，０）を中心として拡散し，原点からの距離が√ｎの領域内に納まると考えられます．

　格子上のランダムウォークは，ブラウン運動などの拡散モデルとしてよく知られていますが，格子のモデルはブラウン運動の離散化とみなすことができるので，局所的にみると離散的過程であっても，大域的にみると連続空間に分布した連続的なガウス分布とみることができます．

　したがって，ｄ次元酔歩が原点（０，０，，・・・，０）を中心として拡散し，原点からの距離がσ＝√ｎの領域内に納まる確率は，自由度ｄのχ^2分布で近似されることがわかります．

　また，ｄ次元正規分布において，原点からのユークリッド距離の確率分布は，χ^2分布の平方根分布であるχ分布になります．とくに，自由度１のχ分布は半正規分布：

　　f(x)=1/σ√(2/π)exp(-x^2/2σ^2)

であり，この分布は期待値が０の正規分布：

　　f(x)=1/σ√(2π)exp(-x^2/2σ^2)

をｙ軸で折り返した分布になっています．また，自由度２のχ分布はレイリー分布：

　　f(x)=x/σ^2exp(-x^2/2σ^2)

自由度３のχ分布はマクスウェル分布：

　　f(x)=2^(3/2)/σ^3x^2exp(-x^2/2σ^2)

と命名されています．また，自由度ｄのχ分布の平均値は

　　Γ（(d+1)/2)）/Γ（d/2）√(2)σ

で与えられます．

　この節では，原点からの拡散が平均距離までに納まる確率を求めてみることにしますが，ガンマ関数の漸近展開式（スターリングの公式）

　　Γ(t)=√(2π/t)t^texp(-t){1+1/(12t(+1/(288t^2)-139/(51840t^3)-571/(2488320t^4)+･･･}

より，

　　Γ（(d+1)/2)）/Γ（d/2）√2=√(d){1-1/(4d)+1/(32d^2)+5/(128d^3)-21/(2048d^4)-399/(8192d^5)+869/(65536d^6)+･･･}

と漸近展開されますから，ｄが大きい領域ではほぼ√(d)σまでに納まる確率に一致します．

　　Γ（(d+1)/2)）/Γ（d/2）√(2)σ～√(d)σ

ｄ　平均距離ｄ　平均距離

1 .575062 13 .513665

2 .540061 14 .513124

3 .533050 15 .512642

4 .527316 16 .512210

5 .523730 17 .511818

6 .521238 18 .511463

7 .519383 19 .511137

8 .517937 20 .510838

9 .516769 30 .508756

10 .515801 40 .507547

11 .514983 50 .506730

12 .514279 100 .504730

　計算の結果，原点からの拡散が平均距離までに納まる確率は６０％から５０％で，この後単調に減少し，いずれ一定の値に収束するかのように見えました．自由度ｄのχ分布の平均値：Γ（(d+1)/2)）/Γ（d/2）√(2)σ，あるいは同じことですが，χ^2分布

　　F(x)=(x/2)^(d/2)1F1(d/2,1+d/2,-x/2)/Γ(1+d/2)

　　　　=(x/2)^(d/2)exp(-x/2)1F1(1,1+d/2,x/2)/Γ(1+d/2)

において

　　x=2*{Γ((d+1)/2))/Γ(d/2)}^2　～　d

とおいた値はｄ→∞のとき，はたして一定値に収束するのでしょうか？

　当該関数は単調減少関数で下限≧０なので，数学的には収束しますし，グラフを描くと極限値は０．５であろうと思われます．問題はその証明です．χ^2分布の分布関数は，

　　F(x)=γ(d/2,x/2)/Γ(d/2)=1-Γ(d/2,x/2)/Γ(d/2)

　　　　=(x/2)^(d/2)exp(-x/2)Σ(x/2)^k/(k+n/2)!

とも書けるのですが，スターリングの法則

　　Γ(1+d/2)=(d/2)!　～　√(πd)(d/2)^(d/2)exp(-d/2)

あるいは，不完全ガンマ関数の漸近展開

　　Γ(a,x)=exp(-x)U(1-a,1-a,x)

　　　　　　～　x^(1-a)exp(-x)2F0(1-a,1,-1/x)

　　　　　　=x^(a-1)exp(-x){1+(a-1)/x+(a-1)(a-2)/x^2+･･･}

　　　　　　=x^(a-1)exp(-x){1+O(1/x)}

を用いても最終収束値が０．５になることを示すことができませんでした．式の形をみる限り，何とか極限値の厳密解は求められそうな気はするのですが，いまのところ，明示的な関係は見いだせていません．

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

【３】ベータ分布

　ベータ関数（オイラーの第１種積分）は，

　　B(a,b)=∫(0,1)t^(a-1)(1-t)^(b-1)dt t=0~1

によって定義されます．ここで積分変数をｔからu=(1-t)/tによってｕに変えると，

　　B(a,b)=∫(0,∞)u^(a-1)/(1+u)^(a+b)du u=0~∞

が得られます．

　ベータ関数とガンマ関数との間には

　　B(a,b)=Γ(a)Γ(b)/Γ(a+b)

の関係がありますから，ベータ関数はガンマ関数の兄弟分にあたります．

　　Γ(1/2)＝√π

を得るにはベータ関数が用いられます．この関数においてt=sin^2θとおくと

　　dt=2sinθcosθdθ

ですから

　　B(a,b)=∫(0,1)t^(a-1)(1-t)^(b-1)dt

　　 =2∫(0,π/2)sin^(2a-1)θcos^(2b-1)θdθ

　ここで，a=1/2,b=1/2とすると

　　B(1/2,1/2)=2∫(0,π/2)dθ=π

　　Γ^2(1/2)/Γ(1)=π

においてΓ(1)=1であり，

　　Γ(1/2)＝√π

となります．

　ベータ関数を一般化すると，

　　∫(a,b)(x-a)^m(b-x)^ndx=m!n!/(m+n+1)!(b-a)^(m+n+1)

が得られますが，これらは受験参考書に必ず書いてある

　　∫(a,b)(x-a)(x-b)dx=-1/6(b-a)^3

　　∫(a,b)(x-a)(x-b)^2dx=1/12(b-a)^4

という公式の一般化になっています．

　ベータ関数の一般化というと，超幾何関数のオイラー型積分表示

　　2Ｆ1(a,b,c,x)＝Γ(c)／Γ(a)Γ(c-a)∫(0,1)t^(a-1)(1-t)^(c-a-1)(1-xt)^(-b)dt

も思いつくところです．この積分表示は(1-xt)^(-b)のテイラー展開

　　(1-xt)^(-b)=Σ(-b,n)(-xt)^n=Σ(b,n)/n!(xt)^n

と

　　(b,n)=Γ(b+n)/Γ(b)

　　B(a,b)=Γ(a)Γ(b)/Γ(a+b)

を組み合わせることで示されます．

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

　ベータ関数は非負ですから，積分すると１になるように規格化するとベータ分布が得られます．ベータ分布はその定義域が０と１の間にある確率現象のモデルとして使われますが，その標準型は次のような確率密度関数になります．

　　f(x)=x^(α-1)(1-x)^(β-1)/B(α,β) 0<x<1

　　　mean=a/(a+b)

　　　variance=ab/(a+b+1)/(a+b)^2

　　　mode=(a-1)/(a+b-2)

　２つの形状母数α，βを含み，これらの値により密度関数は単峰形，Ｊ字型，Ｕ字型など種々の形状をとることができます．たとえば，両母数がともに１より大きければ単峰形となり，α<βのとき右の方へゆがみ，α>βのとき左の方へゆがみ，母数を入れかえることによって鏡像が得られます．β=1のときがべき乗分布でＪ字型分布，α=β=1/2のときが逆正弦分布で，Ｕ字型の形状をとります．また，α=β=1のとき一様分布になります．

　任意の範囲（ａ＜ｘ＜ｂ）にベータ分布を拡張させるには

　　ｙ＝（ｘ－ａ）／（ｂ－ａ）

とおいて変数変換します（０＜ｙ＜１）．試験成績のように（０，１００）の間に分布するデータでは，ａ＝０，ｂ＝１００とおいて変数変換ののちベータ分布をあてはめます．

　変数ｘの変域が両側から制限されているのですが，形はかなりフレキシブルに変化するという特徴を利用して多方面に応用されています．たとえば，試験の得点は正規分布になると考えられているようです（正規分布神話）が，試験成績のように上限・下限が存在してしかも対称形になるとは限らないデータではむしろベータ分布などを適用すべきとする意見もあり，実際，共通１次試験の点数分布にはベータ分布が一番よくあてはまるといわれています．右にゆがんだ分布も表現できる分布なのです．

　ベータ分布Beta(α,β)は，ｘとｙが独立でそれぞれガンマ分布Gamma(λ,α),Gamma(λ,β)に従うとき，ｘ／（ｘ＋ｙ）の分布として求められます．自由度ｍのカイ２乗分布は，自由度ｍ／２のガンマ分布ですから，２つの確率変数が独立に，それぞれ自由度ｍ，ｎのカイ２乗分布にしたがうとき，ｘ／（ｘ＋ｙ）の分布はBeta(m/2,n/2)となります．

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

【４】酔歩とベータ分布

　球に相当するｎ次元の図形を超球と呼びます．ｎ次元単位超球{x1^2+x2^2+･･･+xn^2≦1}の体積をＶnとすると，

　　Ｖn＝π^(n/2)／Γ(n/2+1)

で与えられます．また，単位超球の表面積Ｓn-1はｎＶnとなります．

　ベータ分布は単位球面上で一様に分布する点の配置に密接な関係があります．x=(x1,x2,･･･,xn)を単位球面Ｓn-1上で一様分布する点とすると，

「確率変数

　　y=x1^2+x2^2+･･･+xk^2 0<k<n

はベータ分布Beta(k/2,(n-k)/2)に従う」

ことを証明してみましょう．

（証明）

　z1,z2,･･･,znを標準正規分布にしたがうｎ個の独立な確率変数とします．すなわち，ziの密度関数はいずれも

　　(2π)^(-1/2)exp(-z^2/2)

z=（z1,z2,･･･,zn）の密度関数は

　　(2π)^(-n/2)exp(-(z1^2+z2^2+･･･+zn^2)/2)

　この密度の大きさは原点からの距離だけで決まり，方向には無関係ですから，xi=zi/|z|とおくとx=（x1,x2,･･･,xn）は単位球面上で一様分布する点となります．このとき，

　　x1^2+x2^2+･･･+xk^2=(z1^2+z2^2+･･･+zk^2)/(z1^2+z2^2+･･･+zk^2+zk+1^2+･･･+zn^2)

z1^2+z2^2+･･･+zk^2は自由度ｋのカイ２乗分布，zk+1^2+･･･+zn^2は自由度ｎ－ｋのカイ２乗分布にしたがいますから，x1^2+x2^2+･･･+xk^2の分布はベータ分布Beta(k/2,(n-k)/2)となります．

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

(1)正弦波の確率分布

　逆正弦分布の確率密度関数は

　　f(x)=1/π･{x(1-x)}^(1/2)

となりますが，n=2,k=1すなわち円周上に一様分布する点，正弦波の確率分布に関係して出現します．

　たとえば，正弦波がｘ＝ａｓｉｎθで与えられ，θが－π／２≦θ≦π／２の範囲の一様分布に従うとき，ｘは１つの連続確率変数と考えることができます．そして，ｘの確率密度関数はp(θ)=1/2πより，

　　f(x)dx=2p(θ)dθ=1/π･{a^2-x^2}^(1/2)

を得ることができます．この分布は逆正弦分布の確率密度関数を位置=尺度変換したものとなっています．

(2)ランダムウォークの確率分布

　コインを投げて表がでれば右へε，裏がでれば左へε進む人のモデルを考える．ｎ回の試行ののち，その人がｘ＝ｋεのところにいる確率は，ｎを十分大にすると，２項分布の正規近似により，分散σ^2=ｎε^2の正規分布（０，ｎε^2）に近づきます．

　それでは，彷徨の仕方はどうなるでしょうか？　右，左へ進む確率はそれぞれ１／２ですから，原点の近くをウロウロし，右，左の領域に半分ずつ存在したと予測するのが常識的ですが，この常識は破られます．実際にはどちらか片方にばかりにいる確率が大なのです．

　結論を先にいうと，この人が原点より右にいる時間をｘ（左にいる時間を１－ｘ）とするとその確率密度は

　　f(x)=1/π･{x(1-x)}^(1/2)

であり，対応する累積分布関数は

　　F(x)=2/πarcsin(√x)

となります．

　この分布の平均は１／２ですが，そこはＵ字型分布の谷底であり，一番確率が小さいところになっています．つまり，右，左の領域に半分ずついるのは，もっとも起こりそうにない事象なのです．この分布はｘが０または１に近いほど確率が高く０，１で発散する，ということは常にどちらか片側の領域にいることとよく符合しています．

　逆正弦分布はベータ分布の特別な場合であり，１次元ブラウン運動の滞在確率に関係して現れます．そしてその滞在確率の式中にarcsinが現れることから，「１次元ブラウン運動の逆正弦則」という名で呼ばれます．

　ランダムウォークのような非確定データは，統計的に取り扱われなければなりませんが，このように，ベータ分布は対称ランダムウォークなどマルコフ過程の解析に応用されています．

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

【５】ディリクレ分布（多変量ベータ分布）

　ガウス型超幾何関数

　　2Ｆ1(a,b,c,x)＝Γ(c)／Γ(a)Γ(c-a)∫(0,1)t^(a-1)(1-t)^(c-a-1)(1-xt)^(-b)dt

は一変数関数ですが，この節では超幾何関数ではなく，ベータ関数の多次元化・多変量化（別の方向への一般化）について考えることにします．

　ベータ関数を多変数化すると，ディリクレの積分公式

　　∫ｘ1^(p1-1)･･･ｘm^(pm-1)（１－ｘ1－・・・－ｘm）^(q-1)ｄｘ1・・・ｄｘm

　＝Γ(p1)･･･Γ(pm)Γ(q)／Γ(p1+･･･+pm+q)

が得られます．

　→［参］高木貞治「解析概論」岩波書店，ｐ359

　積分すると１になるように規格化したものがディリクレ分布で，ｘ1，ｘ2，・・・ｘm-1，ｘmが独立でそれぞれ自由度２θiのカイ２乗分布にしたがうとして，

　　ｘm＝１－Σｘi，ｙi＝ｘi／Σｘi

とおくと（ｙ1，・・・，ｙm-1）の同時確率密度関数は

　　ｆ（ｙ1，・・・，ｙm-1）＝Γ（Σθi）／ΠΓ（θi）・Πｙi^(θi-1)

　このｍ－１次元分布をディリクレ分布と呼びます．ｍ＝２のときがベータ分布であって，ベータ分布の多次元化とみなすことができます．また，ディリクレ分布の周辺分布はベータ分布になります．

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝