■どの確率モデルを選定するか(その2)

 正にゆがんだ分布でも負にゆがんだ分布でも,適用できる分布としてベータ分布があげられます.たとえば,試験の得点は正規分布になると考えられているようです(正規分布神話)が,試験成績のように上限・下限が存在してしかも対称形になるとは限らないデータではむしろベータ分布などを適用すべきとする意見もあり,実際,共通1次試験の点数分布にはベータ分布が一番よくあてはまります.

===================================

【1】ベータ分布

 ベータ分布はその定義域が0と1の間にある確率現象のモデルとして使われますが,その標準型は次のような確率密度関数になります.

  f(x)=x^(α-1)(1-x)^(β-1)/B(α,β)

  0<x<1

  mean=a/(a+b)

  variance=ab/(a+b+1)/(a+b)^2

  mode=(a-1)/(a+b-2)

 2つの形状母数α,βを含み,これらの値により密度関数は単峰形,J字型,U字型など種々の形状をとることができます.たとえば,両母数がともに1より大きければ単峰形となり,α<βのとき右の方へゆがみ,α>βのとき左の方へゆがみ,母数を入れかえることによって鏡像が得られます.β=1のときがべき乗分布でJ字型分布,α=β=1/2のときが逆正弦分布で,U字型の形状をとります.また,α=β=1のとき,一様分布になります.

 任意の範囲(a<x<b)にベータ分布を拡張させるには

  y=(x−a)/(b−a)

とおいて変数変換します(0<y<1).試験成績のように(0,100)の間に分布するデータでは,a=0,b=100とおいて,変数変換ののちベータ分布をあてはめます.

 変数xの変域が両側から制限されているのですが,形はかなりフレキシブルに変化するという特徴を利用して多方面に応用されています.たとえば,試験の得点は正規分布になると考えられているようです(正規分布神話)が,試験成績のように上限・下限が存在してしかも対称形になるとは限らないデータではむしろベータ分布などを適用すべきとする意見もあり,実際,共通1次試験の点数分布にはベータ分布が一番よくあてはまるといわれています.正の部分だけで右にゆがんだ分布も表現できる分布なのです.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

 ベータ分布Beta(α,β)は,xとyが独立でそれぞれガンマ分布G(λ,α)G(λ,β)に従うとき,x /(x+y)の分布として求められます.自由度mのカイ2乗分布は、自由度m/2のガンマ分布ですから、2つの確率変数が独立に、それぞれ自由度m,nのカイ2乗分布にしたがうとき、x /(x+y)の分布はbeta(m/2,n/2)となります.

 球に相当するn次元の図形を超球と呼びます.n次元単位超球{x1^2+x2^2+・・・+xn^2≦1}の体積をVnとすると,単位超球の表面積Sn-1はnVnとなります.ガンマ関数とn次元超球との関係は割愛しますが,ベータ分布はn次元球面上で一様に分布する点の配置に密接な関係があります.

 x=(x1,x2,・・・,xn)を単位球面Sn-1上で一様分布する点とすると,確率変数

  y=x1^2+x2^2+・・・+xk^2 0<k<n

はベータ分布beta(k/2,(n-k)/2)に従う,を証明してみましょう.

(証明)z1,z2,・・・,znを標準正規分布にしたがうn個の独立な確率変数とする.すなわち,ziの密度関数はいずれも(2π)^-1/2exp(-z^2/2)

z=(z1,z2,・・・,zn)の密度関数は(2π)^-n/2exp(-(z1^2+z2^2+・・・+zn^2)/2)

この密度の大きさは原点からの距離だけで決まり,方向には無関係ですから,xi=zi/|z|とおくとx=(x1,x2,・・・,xn)は単位球面上で一様分布する点となります.

このとき,x1^2+x2^2+・・・+xk^2=z1^2+z2^2+・・・+zk^2/(z1^2+z2^2+・・・+zk^2+zk+1^2+・・・+zn^2)

z1^2+z2^2+・・・+zk^2は自由度kのカイ2乗分布

zk+1^2+・・・+zn^2は自由度n−kのカイ2乗分布にしたがうから

x1^2+x2^2+・・・+xk^2の分布はベータ分布beta(k/2,(n-k)/2)となる.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

[1]正弦波の確率分布

 逆正弦分布の確率密度関数は

  f(x)=1/π・{x(1-x)}^(1/2)

となりますが,n=2,k=1すなわち円周上に一様分布する点,正弦波の確率分布に関係して出現します.

 たとえば,正弦波がx=asinθで与えられ,θが−π/2≦θ≦π/2の範囲の一様分布に従うとき,xは1つの連続確率変数と考えることができます.そして,xの確率密度関数は,p(θ)=1/2πより,

  f(x)dx=2p(θ)dθ=1/π・{a^2-x^2}^(1/2)

を得ることができます.

この分布は,逆正弦分布の確率密度関数を位置=尺度変換したものとなっています.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

[2]ランダムウォークの確率分布

 コインを投げて表がでれば右へε,裏がでれば左へε進む人のモデルを考える.n回の試行ののち,その人がx=kεのところにいる確率は,nを十分大にすると,2項分布の正規近似により,分散σ2=nε2の正規分布(0,nε^2)に近づきます.

 それでは,彷徨の仕方はどうなるでしょうか? 右,左へ進む確率はそれぞれ1/2ですから,原点の近くをウロウロし,右,左の領域に半分ずつ存在したと予測するのが常識的ですが,この常識は破られます.実際にはどちらか片方にばかりにいる確率が大なのです.

 結論を先にいうと,この人が原点より右にいる時間をx(左にいる時間を1−x)とするとその確率密度は

  f(x)=1/π・{x(1-x)}^(1/2)

であり,対応する累積分布関数は

  F(x)=2/πarcsin(√x)

となります.

 この分布の平均は1/2ですが,そこはU字型分布の谷底であり,一番確率が小さいところになっています.つまり,右,左の領域に半分ずついるのは,もっとも起こりそうにない事象なのです.この分布はxが0または1に近いほど確率が高く0,1で発散する,ということは常にどちらか片側の領域にいることとよく符合しています.

 ベータ分布は2次元のブラウン運動の滞在確率に関係して現れますが,逆正弦分布はベータ分布の特別な場合であり,1次元ブラウン運動の滞在確率に関係しています.そしてその滞在確率の式中にsin-1が現れることから,「1次元ブラウン運動の逆正弦則」という名で呼ばれます.

 ランダムウォークのような非確定データは,統計的に取り扱われなければなりませんが,このように,ベータ分布は,対称ランダムウォークなどマルコフ過程の解析に応用されています.

===================================