■確率分布と母数(その1)

 何か単位あたりのものの数量を表す関数があるとき,これを密度関数といい,密度関数があるものの分布の仕方を表すとき,密度は分布と呼ばれます.

 確率分布(probability distribution)に要請される条件は非常に簡単なものばかりです.成書によって用語や記号に多少の不統一があるのですが,ここでは主として連続分布を取り上げる関係上,確率密度関数(probability density function:pdf)を小文字でf(x)と,累積分布関数(cumulative distribution function:cdf)は大文字でF(x)と表現することにします.

 確率密度関数は単に密度関数(density function),累積分布関数は単に分布関数(distribution function)としばしば略されます.

===================================

【1】確率密度関数

 確率変数xが区間(-∞,∞)で定義されているとき,確率密度関数f(x)には次のような簡単な条件が要請されます.

  f(x)≧0

  ∫(-∞,∞)f(x)dx=1

すなわち,確率密度関数は非負であって,積分すると1になる関数です.

 もしも,負の値をとらない関数g(x)が積分値

  ∫(-∞,∞)g(x)dx=c<∞

をもつならば,関数f(x)=1/c*g(x)は全体の面積を1とした規格化が行われ,確率密度関数となる条件を満たします(規格化条件).このように非負で定積分値がわかっている関数は無数にあるわけですから,密度関数は数限りなく存在することになります.

 なお,有限区間[a,b]で定義された連続密度関数g(x)に対しても,

  h(x)=1 (a≦x≦b)

  h(x)=0 (x<a, x>b)

なる関数を導入して,f(x)=g(x)h(x)とすれば,前式と同様に確率密度関数を定義できます.関数h(x)はヘビーサイド関数,ディラックのデルタ関数あるいはインパルス関数とも呼ばれます.

 また,離散分布に対しては,確率密度関数の代わりに,確率質量関数(probability mass function:PMF)なる用語がしばしば用いられます.離散分布の確率質量関数p(x)に対しても,インパルス関数を用いれば,無理やり確率密度関数として表すことができます.

  q(x)=p(x)h(x)

  h(x)=1 x=0,1,2,3,・・・

  h(x)=0 x=not 0,1,2,3,・・・

すなわち,連続分布,離散分布の相違は本質的なものではなく,単に見かけ上のことにすぎません.

 今後,確率分布について一般論を展開するときには,連続分布についてだけ議論して,積分∫dxを取り扱いますが,その裏では和の記号Σも並行しているものと諒解して頂きたいと存じます.

  ∫(-∞,∞)f(x)dx=1 ←→ Σp(x)=1

【補】密度はその定義からいって正でなければならないのですが,量子力学の中では,分布は負の値を取ったり,ときには複素数値関数であったりします.それらはもはや密度と呼ぶべきではないかもしれませんが,密度として扱われ使用されています.正値性の要求をゆるめたとき,正の密度で成立していた概念のうちでどれがそのまま保存されているかは面白い問題です.一般的に,特性関数とモーメントの概念の大部分は,密度が正でなくてもなんら問題を生じません.しかし,標準偏差は負になるかもしれませんし,相関係数は[-1,1]内の限定されない可能性が生じます.

===================================

【2】累積分布関数

 累積分布関数はしばしば分布関数とも略されますが,変数Xがxよりも小さい値をとる確率P{X<=x}を表す関数として表現され,密度関数f(x)を-∞からxまで積分することによって得られます.

  F(x)=P{X≦x}=∫(-∞,x)f(t)dt

 f(x)≧0かつ(-∞,∞)f(x)dx=1より,累積分布関数は0≦F(x)≦1の単調非減少関数です.また,累積分布関数の導関数d/dxF(x)が存在するとき,

  d/dxF(x)=f(x)

という関係が成立します.つまり,累積分布関数と確率密度関数は移動距離と速度の関係にあるというわけです.

 正規分布のように確率密度関数が先に導出された経緯をもつものもありますが,ワイブル分布やロジスティック分布,指数分布のように累積分布関数が先で,それを微分して確率密度関数が求められた分布もあります.また,ブールシステム(Burr system)と呼ばれる一連の分布は,確率密度関数でなく累積分布関数が解析的な式によって第一義的に定義される分布系です.

 このように,タマゴ(確率密度関数)が先かニワトリ(累積分布関数)が先かは分布により様々です.確率密度関数f(x)による確率分布の定義だけでも十分ともいえましょうが,畳み込み積分,極値極限分布,順序統計量の解析などへの応用では,単調非減少関数である累積分布関数を用いたほうが,数学的扱いが簡単でなにかと便利になります.また,確率密度関数と累積分布関数を一緒に用いると,ハザード比という分布関数の隠れた性質も見えてきますから,両者は目的により適宜使い分けられているのです.

===================================

【3】逆分布関数

 一方,累積分布関数F(x)の逆関数F-1(x)は逆分布関数,分位点関数あるいは確率表現関数とも呼ばれます.指数分布,ワイブル分布,2重指数分布,コーシー分布,ロジスティック分布などでは分位点関数が解析的に求められますが,正規分布のように解析的に求められない場合もあります.とくに,ロジスティック分布は確率密度関数が裾の範囲を除いて正規分布と類似していること,また累積分布関数および分位点関数が明示的に書き表せることなどの利点から,計数データの計量変換(ロジット変換)で多用されています.

検定や推定を行う場合,片側確率cに対するパーセント点x

  ∫(-∞,x)f(t)dt=c   (下側)

  ∫(x,∞)f(t)dt=c   (上側)

やパーセント点xに対する片側確率c

  F-1(c)=x    (下側)

  F-1(1-c)=x   (上側)

を求めることが必要になります.分位点関数が解析的に求められるとき,これらの計算は非常に簡便なのですが,解析的に求められない場合は,統計数値表を引くか、近似式を使って必要な数値を計算するかいずれかです.

 正規分布,t分布,F分布,χ2分布では上側(下側)確率やパーセント点を計算する近似関数が求められています.また,例えば、対数正規分布では正規分布の,ガンマ分布ではχ2分布の,ベータ分布ではF分布の近似式を利用すると,上側(下側)確率やパーセント点を計算することができるようになり,結果的に,多くの確率分布で所期の目的を達成することができます.

===================================

【4】逆関数法による乱数発生法

 確率変数xが確率密度f(x)をもつとすれば,y=F(x)は区間(0,1)で一様分布します.

(証明)yの密度関数をg(y)とする.0-1

  f(x)dx=g(y)dy

また,y=F(x)よりdy={F(x)}'dx=f(x)dx

これより,g(y)=1

 したがって,一様乱数列{yi}を発生させて,

  yi=F(xi)すなわちxi=F-1(yi)

を満たす数列{xi}は与えられた確率密度f(x)をもつ乱数列となります.

 例えば,変換y=-logxは,一様乱数R(0,1)を平均値1の指数分布をもつ乱数に変換するのに用いられます.

(例)指数分布

  F(x)=1-exp(-x)

  F-1(x)=-log(1-x)

したがって,x=-log(1-u)

1-uも(0,1)上の一様乱数であるから,X=-loguとする.

これより平均値1の指数分布(自由度1のガンマ分布)が得られる.

 尺度母数θの指数分布,すなわち,平均値θの指数分布乱数は,変換

  y=-1/θlogx

によって得ることができます.たとえば,y=-2logxは一様乱数を平均値2の指数分布に変換します.

  y=-1/θlog(u1*u2*・・・*uk)

とすると平均値θ,自由度kのガンマ乱数が得られますが,kが大きいときには効率的ではなく,またkが整数でないときにはこの方法は適用できません.

 レイリー分布やワイブル分布は指数分布に基づく分布と考えることができますが,z=(-2logx)^(1/2)と変数変換すると

  x=exp(-z^2/2),dx=zdz

  p(x)dx=zexp(-z^2/2)dz

よりzの分布はレイリー分布となります.

 レイリー分布は形状母数2のワイブル分布であり,同様にして尺度母数β,形状母数αのワイブル乱数は

  x=−β{log(u)}^(1/α)

として発生させることができます.

(例)ガンベル分布

F(x)=exp(-exp(-x)) x=-log(-logu)

コーシー分布

F(x)=1/πtan-1x x=tan(πu)

ロジスティック分布

F(x)=1/(1+exp(-x)) x=log(u/(1-u))

最大値分布

G(x)={F(x)}^n x=F-1(u^(1/n))

最小値分布

G(x)=1-{1-F(x)}^n x=F-1(1-u^(1/n))

 このように,逆関数による乱数発生法は原理的に簡単なので,指数分布,ワイブル分布,二重指数分布,コーシー分布,ロジステック分布などの乱数発生に用いられています.ただし,正規分布のように逆関数が簡単に計算できない場合も多く,また,逆関数法による乱数発生は高速でないという欠点もあります.そのため,任意の統計分布を対象とした高速乱数発生法が多数提案されています.

===================================