■確率分布・各論(その5)
【1】その他の連続分布(負にゆがんだ分布など)
(1)フレッシェ分布
ワイブル分布は,曲線の山の左側がやや急斜面で右方向に尾を引くような形の非対称分布でした.しかし,ワイブル分布の位置=尺度母数モデル:g(x)=1/δf{(x-γ)/δ}において,x−γをγ−xと入れ替えるとx軸のスケールを反転させたのと同じことになり,右寄りに最頻値があらわれた分布を得ることができます.この分布はワイブル分布と表裏の関係にあるいわば負のワイブル分布であって,フレッシェ分布とも呼ばれます.したがって,縦軸に人間の生存率,横軸に生存時間をとった場合の生存率曲線がワイブル分布に従うとすると,縦軸に死亡率をとった死亡率曲線は,生存率+死亡率=100%ですから,フレッシェ分布に従うことになります.
ワイブル分布とフレッシェ分布は,一方から他方に簡単に関数形を変えることができるこから,どちらも区別なくワイブル分布と呼ばれることがあります.そのような場合にはどちらを指しているか文脈から判断しなければなりません.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
(2)ゴンペルツ分布
最大値分布:f(x)=1/βexp{-(x-α)/β}exp[-exp{-(x-α)/β}]は正にゆがんだ分布ですが,(x−α)を−(x−α)とおくと最小値分布:f(x)=1/βexp{(x-α)/β}exp[-exp{(x-α)/β}]が得られ,これは負にゆがんだ分布となります.この分布の確率変数xは-∞から∞までおよんでいますが,非負の部分を取り扱いたいため,0でトランケートしてみます.
F(x)=1-exp[exp{-(x-α)/β}]ですから,下側が切れた分布(truncated distribution)の確率密度関数は
f(x)/{1-F(0)}=1/βexp{(x-α)/β}exp[-exp{α/β}-exp({(x-α)/β}] x>0
として得られます.
この分布はゴンペルツ分布,あるいは切断極値分布(truncated extreme value distribution)と呼ばれます.
ロジスティック分布は累積分布関数がロジスティック曲線になる分布でしたが,ゴンペルツ分布の累積分布関数はゴンペルツ曲線になります.ゴンペルツ曲線とは,ロジスティック曲線とならぶ成長曲線の一種で,人体の老化作用についての研究(身体の抵抗力は年齢とともに減少するが,その割合はそのときの残存抵抗力に比例する)から導かれた仮説をモデル化したものです.
微分方程式:dN/dt=kN(lnB−lnN)を解くと2重指数を含む式y=aexp(bexp(cx)) (a>0,0<b<1,c<0)が得られます.これがゴンペルツ関数であり,その曲線は2本の漸近線をもち,最大値はy=aへ,最小値はy=0に収束し,その間を単調に増加するS字状曲線を描きます.a=1とおきこれを微分すると,式()が得られます.この分布も寿命データの解析などに応用されています.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
(3)ベータ分布
ベータ分布はその定義域が0と1の間にある確率現象のモデルとして使われますが,その標準型は次のような確率密度関数になります.
f(x)=x^(α-1)(1-x)^(β-1)/B(α,β)
0<x<1
mean=a/(a+b)
variance=ab/(a+b+1)/(a+b)^2
mode=(a-1)/(a+b-2)
2つの形状母数α,βを含み,これらの値により密度関数は単峰形,J字型,U字型など種々の形状をとることができます.たとえば,両母数がともに1より大きければ単峰形となり,α<βのとき右の方へゆがみ,α>βのとき左の方へゆがみ,母数を入れかえることによって鏡像が得られます.β=1のときがべき乗分布でJ字型分布,α=β=1/2のときが逆正弦分布で,U字型の形状をとります.また,α=β=1のとき,一様分布になります.
任意の範囲(a<x<b)にベータ分布を拡張させるには
y=(x−a)/(b−a)
とおいて変数変換します(0<y<1).試験成績のように(0,100)の間に分布するデータでは,a=0,b=100とおいて,変数変換ののちベータ分布をあてはめます.
変数xの変域が両側から制限されているのですが,形はかなりフレキシブルに変化するという特徴を利用して多方面に応用されています.たとえば,試験の得点は正規分布になると考えられているようです(正規分布神話)が,試験成績のように上限・下限が存在してしかも対称形になるとは限らないデータではむしろベータ分布などを適用すべきとする意見もあり,実際,共通1次試験の点数分布にはベータ分布が一番よくあてはまるといわれています.
ベータ分布Beta(α,β)は,xとyが独立でそれぞれガンマ分布G(λ,α)G(λ,β)に従うとき,x /(x+y)の分布として求められます.自由度mのカイ2乗分布は,自由度m/2のガンマ分布ですから,2つの確率変数が独立に,それぞれ自由度m,nのカイ2乗分布にしたがうとき,x /(x+y)の分布はbeta(m/2,n/2)となります.
球に相当するn次元の図形を超球と呼びます.n次元単位超球{x12+x22+・・・+xn2≦1}の体積をVnとすると,単位超球の表面積Sn-1はnVnとなります.ガンマ関数とn次元超球との関係はこれまで何度か述べましたが,ベータ分布はn次元球面上で一様に分布する点の配置に密接な関係があります.
x=(x1,x2,・・・,xn)を単位球面Sn-1上で一様分布する点とすると「確率変数y=x1^2+x2^2+・・・+xk^2 0<k<nはベータ分布beta(k/2,(n-k)/2)に従う」を証明してみましょう.
(証明)
z1,z2,・・・,znを標準正規分布にしたがうn個の独立な確率変数とする.すなわち,ziの密度関数はいずれも(2π)1/2exp(-z2/2)
z=(z1,z2,・・・,zn)の密度関数は(2π)n/2exp(-(z12+z22+・・・+zn2)/2)
この密度の大きさは原点からの距離だけで決まり,方向には無関係ですから,xi=zi/|z|とおくとx=(x1,x2,・・・,xn)は単位球面上で一様分布する点となります.
このとき,
x1^2+x2^2+・・・+xk^2=z1^2+z2^2+・・・+zk^2/z1^2+z2^2+・・・+zk^2+zk+1^2+・・・+zn^2
z12+z22+・・・+zk2は自由度kのカイ2乗分布
zk+12+・・・+zn2は自由度n−kのカイ2乗分布にしたがうから
x12+x22+・・・+xk2の分布はベータ分布beta(k/2,(n-k)/2)となる.
(1)正弦波の確率分布
逆正弦分布の確率密度関数は
f(x)=1/π・{x(1-x)}^(1/2)
となりますが,n=2,k=1すなわち円周上に一様分布する点,正弦波の確率分布に関係して出現します.
たとえば,正弦波がx=asinθで与えられ,θが−π/2≦θ≦π/2の範囲の一様分布に従うとき,xは1つの連続確率変数と考えることができます.そして,xの確率密度関数は,p(θ)=1/2πより,
f(x)dx=2p(θ)dθ=1/π・{a^2-x^2}^(1/2)
を得ることができます.
この分布は,逆正弦分布の確率密度関数を位置=尺度変換したものとなっています.
(2)ランダムウォークの確率分布
コインを投げて表がでれば右へε,裏がでれば左へε進む人のモデルを考える.n回の試行ののち,その人がx=kεのところにいる確率は,nを十分大にすると,2項分布の正規近似により,分散σ2=nε2の正規分布(0,nε2)に近づきます.それでは,彷徨の仕方はどうなるでしょうか?
右,左へ進む確率はそれぞれ1/2ですから,原点の近くをウロウロし,右,左の領域に半分ずつ存在したと予測するのが常識的ですが,この常識は破られます.実際にはどちらか片方にばかりにいる確率が大なのです.
結論を先にいうと,この人が原点より右にいる時間をx(左にいる時間を1−x)とするとその確率密度は
f(x)=1/π・{x(1-x)}^(1/2)
であり,対応する累積分布関数は
F(x)=2/πarcsin(√x)
となります.
この分布の平均は1/2ですが,そこはU字型分布の谷底であり,一番確率が小さいところになっています.つまり,右,左の領域に半分ずついるのは,もっとも起こりそうにない事象なのです.この分布はxが0または1に近いほど確率が高く0,1で発散する,ということは常にどちらか片側の領域にいることとよく符合しています.
ベータ分布は2次元のブラウン運動の滞在確率に関係して現れますが,逆正弦分布はベータ分布の特別な場合であり,1次元ブラウン運動の滞在確率に関係しています.そしてその滞在確率の式中にarcsinが現れることから,「1次元ブラウン運動の逆正弦則」という名で呼ばれます.
ランダムウォークのような非確定データは,統計的に取り扱われなければなりませんが,このように,ベータ分布は,対称ランダムウォークなどマルコフ過程の解析に応用されています.
===================================