■確率分布・各論(その4)

【1】正にゆがんだ連続分布(続き)

(6)指数分布

 指数分布は,寿命や事故の発生間隔のように,本質的に非負の値をとりながら0に近い値をとる確率が無視できない量に使われる基本的分布です.

その確率密度関数

f(x)=1/β・exp(−x/β)

0≦x<∞

は尖点に向かって立ち上がり,そして反対方向ではだんだん小さくなっていくJ字形曲線(Jを裏返したかのような曲線)を描きます.

mean=β

variance=β^2

1.ポアソン過程の時間間隔の分布

 指数分布はポアソン過程とも関連していて,ガンマ分布においてα=1のときが指数分布ですから,ポアソン過程の例では,初めて事象が起こるまでの時間(たとえば待ち時間とか寿命とか)に解釈されます.

(例)客の到着時間間隔が指数分布λe(−λt)のとき,任意の時間区間(t,t+h)にk人の客が到着する確率は,tの取り方に関係せず,ポアソン分布の確率密度e(−λh)(λh)^k/k!で表される.

 到着分布でもっとも扱いやすいのは指数分布であって,幸いなことに,これがよくあてはまる実例が多い.

2.記憶の欠如(no memory property)

 指数分布は記憶をもたない分布P{X>x+x0/X>x0}=P{X>x}としてよく知られていて,無記憶性分布(過去の履歴に無関係な分布)は,連続分布では指数分布以外には存在しません.

 また,指数分布を寿命分布として考えると一定のハザードレート(危険率)をもつ分布ということになります.これは指数分布のtruncated formが,単にshiftさせたものと同じになることからも理解されます.

(例)たとえば,客のサービス時間が平均3分の指数分布に従うことがわかっているとする.ある客のサービスが始まってからもう2分たってしまったが,まだ終了しない.これからさらに平均何分たったら終了すると考えられるか?

 3分−2分=1分でサービスが終了するであろうなど誤解してはならない.指数分布は過去の履歴(すでに2分経過しているという条件)に無関係で,これからさらに平均3分たってサービスが終了するとみなければならない.

 平均待ち時間は,ある意味では気休め程度のものでしかないということになる.指数分布では平均=標準偏差で,これはかなり大きなばらつきをもつことになるからである.したがって,現実に何らかの問題を決定したいようなときにはばらつきも考慮に入れたほうがよい.

3.和と差の分布

独立な指数確率変数の和はアーラン分布,また独立な2つの指数確率変数の差の分布は両側指数分布(ラプラス分布)になります.

4.逆関数法による各種乱数の発生法

変換y=-logxは,一様乱数R(0,1)を平均値1の指数分布をもつ乱数に変換するのに用いられます.

(証明)

p(x)=1(0<x<1),x=exp(-y),dx=|-exp(-y)|dy

したがって,q(y)dy=p(x)dx=exp(-y)dyより,q(y)=exp(-y):平均値1の指数分布(自由度1のガンマ分布)が得られる.

 スケールパラメータθの指数分布,すなわち,平均値θの指数分布乱数は

変換y=-1/θlogxによって得ることができます.たとえば,y=-2logxは一様乱数を平均値2の指数分布に変換します.y=-1/θlog(u1*u2*・・・*uk)とすると平均値θ,自由度kのガンマ乱数が得られますが,kが大きいときには効率的ではなく,またkが整数でないときにはこの方法は適用できません.

 レイリー分布やワイブル分布は指数分布に基づく分布と考えることができますが,z=(-2logx)^(1/2)と変数変換すると

x=exp(-z2/2),dx=zdz

p(x)dx=zexp(-z2/2)dz

よりzの分布はレイリー分布となります.

 レイリー分布はシェイプパラメータ2のワイブル分布であり,同様にしてスケールパラメータβ,シェイプパラメータαのワイブル乱数はx=−β{log(u)}^(1/α)として発生させることができます.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

(7)ワイブル分布

f(x)=α/β(x/β)^α-1exp(−(x/β)^α),0≦x<∞

 ワイブル分布において,α=1の場合が指数分布,α=2の場合がレイリー分布です.また,xをワイブル分布にしたがう変数とすると,y=logxは二重指数分布(後述)にしたがうことになります.

μ'r=βrΓ(r/α+1)

mean=βΓ(1/α+1)

variance=β2{Γ(2/α+1)-[Γ(1/α+1)]^2}

mode=β(l-1/α)^(1/α)

median=β(log2)^(1/2)

1.融通性のよさ

 ワイブル分布は上式の関数形で与えられますが,この式でαは形状母数,βは尺度母数と呼ばれます.ワイブル分布ではシェイプパラメータαの値を変えると形が種々に変化し,α=1のときこの分布は指数分布となり,αの値が小さいほどガンマ分布より非対称性の強い分布を与え,α>3〜4の場合にはほぼ正規分布の代用となるような対称的な形になります.そのため,ガンマ分布よりあてはめの融通性がよくなっています.

2.寿命時間分布

 今日まで多くの寿命データがワイブル分布に従うことが実証されていて,たとえば,機械が故障するまでの時間の分布,すなわち寿命時間分布としてよく知られています.また,ワイブル分布のハザードレートを計算するとユニバーサルです.この点がいろいろな分野でワイブル分布が用いられる理由です.

3.ワイブル分布はn次元空間でポアソン分布する点の配置に密接な関係があり,最近接点間の距離の分布はワイブル分布に従うことを,一般的な形で誘導することができる.

4.ワイブル乱数の発生法

ワイブル分布は,形状母数の値によって多様な形状を示します.逆にいうと,ワイブル分布にあてはまらないケースは考えにくく,そのため,ワイブルユーフォリア(Weibull euphoria)という好ましくない傾向を生じていることも見逃せません.ユーフォリアは幸せな気分に浸っている状態(多幸感)を表す医学用語ですが,バブル経済期の日本のごとく,妄想に浮かれている状態を指すといったほうが適当かもしれません.ワイブル分布だけを闇雲に盲信し,他の分布を軽視する衒学的な姿勢は厳に慎まなければなりません.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

(8)二重指数分布(ガンベル分布)

 n個の観測値の最大値や最小値のことを極値といいます.正規分布に限らず,任意の連続分布から独立に抽出したn個の標本の最大値あるいは最小値の分布のモデルが二重指数分布(ガンベル分布)です.

 最大値や最小値の分布はnとともにずれていきます.そこで,nが大きいとき,漸近的に位置=尺度モデルに収束するための条件{G(x)}^n=G(a+bx)の解を考えると,このような統計量の極限分布は3種類ある極値分布すなわちガンベル分布,フレッシェ分布,ワイブル分布のいずれかになります.フレッシェ分布は,ワイブル分布と正負の方向が違うだけのいわば負のワイブル分布で,独立した名称を与えること自体あまり意味をもちません.そこで,ここでは二重指数分布(ガンベル分布)を取り上げてみます.

n→∞のときの最大値の極限分布(ガンベルの最大値分布)は

F(x)=exp[-exp{-(x-α)/β}] -∞<x<∞

f(x)=1/βexp{-(x-α)/β}exp[-exp{-(x-α)/β}]

と書き表されます.すなわち,y=exp{-(x-α)/β}が指数分布にしたがうならば,xは二重指数分布にしたがうことになります.また,この分布は,ワイブル分布に従う確率変数xを対数変換したものの分布,すなわち対数ワイブル分布とも考えることもできます.

mean=α+γβ γ:オイラーの定数(0.577)

variance=β2π2/6

mode=α

median=α−βlog(log2)

 また,ガンベルの最小値分布は,

F(x)=1-exp[exp{-(x-α)/β}] -∞<x<∞

f(x)=1/βexp{(x-α)/β}exp[-exp{(x-α)/β}]

と表されます.

mean=α-γβ

variance=β2π2/6

mode=α

median=α+βlog(log2)

 最大値分布は正に,最小値分布は負にゆがんだ分布となります.また,範囲(最大値と最小値の差)の極限分布は第2種の変形ベッセル関数Kを用いて

f(x)=2exp(-x)k0(2exp(-x/2))

と書くことができます.

1.ガンベル乱数の発生法

 機器は非常に多くの独立な部品からなり,その1つの部品が破壊されれば全体が故障すると考えられる場合,全体の寿命は個々の部品の寿命の最小値に一致すると想定されます.このことから,極値分布は寿命データの解析などに応用されています.また,ガンベル自身はこの分布を洪水データの解析や雨量予測,治水など自然現象の解析に用いています.ガンベル分布とそのtruncated form (切断分布)はワイブル分布ほど知られてはいませんが,もっと応用されるべき特性を有しています.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

(9)逆ガウス分布(ワルド分布)

 逆ガウス分布は,ブラウン運動する粒子の速度と距離の関係式として得られた分布で,いろいろな表現形がありますが,最もよく用いられる確率密度関数としては,2つのパラメータλ,μを用いて

f(x)=sqr(λ/2πx^3)exp(-λ(x−μ)^2/2μ2x)

で定義されます.ワルドが,逐次確率比検定における標本の大きさの近似的な分布として,この分布を導いたことから,ワルド分布とも呼ばれています.

mean=μ

variance=μ3/λ

mode=μ{(1+9/4φ2)^1/2-3/2φ},φ=λ/μ

 逆ガウス分布はそのキュムラント母関数λ/μ[1-(1-(2μ^2t/λ)^(1/2)](tの1/2次式)が正規分布(ガウス分布)のキュムラント母関数(μt+σ2t2/2)(tの2次式)と逆関数関係にあることから逆ガウス分布と呼ばれているのであって,正規分布にしたがう変数の逆数の分布という意味ではありません.逆ガウス分布の逆数の分布は酔歩の平均速度と関係し,酔歩分布(random walk distribution)と呼ばれ,

f(x)=sqr(λ/2πx)exp(-λx(1-1/μx)^2/2)

式で表されます.これらの分布は,拡散過程の解析などに用いられています.

 また,逆ガウス分布において,xを固定して,μ→∞の極限を考えるとλ(x−μ)^2/2μ2x→λ/2xですから,

f(x)=1/√(2π)x^(-3/2)exp(-1/2x)

が得られます.この分布は1母数版の逆ガウス分布に相当し,一般的にはfirst passage time distribution of Brownian motionの名称で通っています.しかし,定まった訳語がないため,ここではブラウンノイズ関数と呼ぶことにしました.

 ブラウンノイズ関数は自由度1のカイ2乗分布の逆数の分布として,あるいは半正規分布(自由度1のカイ分布)においてxを1/√(x)とおいて得られます.その期待値E[x^a]はa>=1/2に対して無限大になりますから,コーシー分布と同様に平均値も分散ももちません.この分布に関しても再生性が成り立ちます.また,ブラウンノイズ関数の分散は発散しますが,4分位偏差に関して

s^1/2=s1^1/2+s2^1/2

が成り立ちます(stable distribution).すなわち,同一の2つのブラウンノイズ変数の和の分布の4分位偏差は個々の変数の4分位偏差の2倍となることが示されています.

 また,逆ガウス分布と関連している分布にBirnbaum-Saunders分布があげられます.この分布は,

y=1/α(√x/β−√β/x)が標準正規分布N(0,1)y=1/√2πexp(-y2/2)にしたがうとして導出できます.

f(x)=exp(α^-2)/2α√2πβx^(-3/2)(x+β)exp(-1/2α^2(x/β+β/x))

mean=β(1/2α2+1)

variance=β2α2(5/4α2+1)

Birnbaum-Saunders分布は,寿命データの解析などにしばしば用いられています.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

(10)プランク分布

 熱せられた物体からはさまざまな波長の電磁波が放射され,それは熱放射と呼ばれます.どのような波長の電磁波がどんな強さででてくるのか,これを熱放射のスペクトルといいます.エネルギーの量子化の概念は,熱放射に関連してプランクが提唱したのですが,これをきっかけにして量子力学の概念が体系化されたことはあまりにも有名です.あらためて,そのエピソードを記述してみます.

 1893年,ウィーンは物体の温度と放射される電磁波の波長の積は一定になるという関係を導きました.さらに,1896年,熱放射のエネルギーを式を物体の温度と放射される電磁波の波長の関数として分布式を計算しましたが,この分布式は長波長側(赤外線領域)で実験結果と食い違っていることが判明しました.一方,イギリスのレイリーとジーンズの式は,波長の長いところでは実際のスペクトルとよくあうのですが,短い波長に対しては計算したエネルギーの強度は際限なく大きくなってしまい,まったく実験とあわないのです.

 そこで,プランクは早速見直しにとりかかり,全波長領域にわたって測定結果と一致する式を導出することに成功したのです(1900年).プランクは式を導出する過程で熱放射のエネルギーは不連続の値を取るという条件を設定したのですが,このような条件を設定しないと,計算の途中で式が無限大に発散するからです.これがエネルギー量子仮説ですが,プランクは自分の息子に「私はニュートンに匹敵する発見をしたらしい」と語り,量子仮説の重大さを訴えたことが伝えられています.

 熱放射に関するプランク分布は,数学的にみるとゼータ関数・ガンマ関数と関連しています.プランク分布の確率密度関数

f(x)=cx^3/[e^x-1] c=1/[Γ(4)ζ(4)]=15/π^4

は物理的には3種類ある統計力学のひとつ:BE統計の代表的な現象を表す分布として知られています.

 ガンマ分布と似ていますが,分母から1を引いた式になっていることがミソとなって,ゼータ関数(***節)が登場してきます.また,分母から1を引いた形は無限等比級数

1+x+x2 +x3 +・・・=1/(1−x)

を思い起こさせますが,実はそれがhνの整数倍nhνと深く関係するエネルギーの和であることを示しているのです.ベルヌーイ数{Bn}の指数型母関数x/[e^x-1]と非常によく似た形で与えられるといったほうがわかりやすいかもしれません.

 この分布をさらに拡張させると,一般化プランク分布が得られます.その確率密度関数は,以下の式で表されます.

f(x)=cx^n/[e^x-1] c=1/[Γ(n+1)ζ(n+1)]

このように,一般化プランク分布にはゼータ関数やガンマ関数が出現しますが,上記のプランク分布は3次元(n=3)の場合に相当します.また,2次までの積率は

μ1'=(n+1)ζ(n+2)/ζ(n+1)

μ2'=(n+1)(n+2)ζ(n+3)/ζ(n+1)

となりますが,さらに高次の積率は

integral(0,∞)x^n/[e^x-1]=Γ(n+1)ζ(n+1)  (***節メリン変換)

から求めることができます.

【統計力学】

 n個の箱にr個の玉を入れる問題を考えます.箱を空間の小領域,玉を気体の分子と見立てて,ボルツマンは統計力学(Maxwell-Boltzmann統計)を構成しました.MB統計では箱も玉も区別でき,箱には玉が何個もはいると考えます.その場合の数は1つの玉の入れ方がn通りで,玉がr個ですから全部でn^r通りの入れ方があります.しかし,このように考えると,黒体輻射の実験がどうしてもうまく説明できませんでした.

 そこで,量子力学の世界では,粒子(玉)はひとつひとつ区別できないと考えます.箱の区別はできるが玉の区別がつかないと仮定すると,n個の箱に区別できないr個の玉を入れる入れ方は重複組合せnHr通り=n+r-1Cr通りあることになり,新たな統計力学が構成されます.この統計力学はBose-Einstein統計と呼ばれ,光子や中性子がうまく当てはまります.BE統計にしたがう素粒子はボゾン(boson)と呼ばれます.

 さらに,箱も玉も区別できず,そのうえ1つの箱には玉は1つしか入らないものとするパウリの排他則を仮定すると重複のない組合せnCr通りとなり,Fermi-Diracの統計が得られます.FD統計にしたがう素粒子に電子や陽子があり,それらはフェルミオン(fermion)と総称されます.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

(11)各種一般化分布

 指数べき分布:両側指数分布を一般化した分布がSubbotinによる指数べき分布です.

f(x)=[2^(δ/2+1)Γ(δ/2+1)]-1φ-1exp[-1/2|x-θ/φ|]^(2/δ]

μr=0 r:奇数

φr2^(rδ/2)Γ((r+1)δ/2)/Γ(δ/2)    r:偶数

 これはパラメータの値によって,両側指数分布(δ=2)→正規分布(δ=1)→矩形分布(δ→0)と形を変えるところから,誤差関数を一般化したものと考えることができます.

一般化ガンマ分布

 対数正規分布,ワイブル分布,ガンマ分布,χ^2分布,χ分布を特殊な場合として含むより広い分布型として考案されたのが一般化ガンマ分布です.

p(x)=c(x-γ)^(cα-1)/β^cαΓ(α)exp[-(x-γ/β)^c]

 ガンマ分布f(x)=x^(α-1)/Γ(α)exp[-x/β]において,x→((z-γ)/β)^cとおくとこの分布が得られますから,ワイブル化したガンマ分布と考えることができます.ワイブル分布(α=1),半正規分布(α=1/2,c=2,γ=0),ガンマ分布(c=1),対数正規分布(α→∞)などをカバーしています.

 これと同様に,ベキ乗変換((z-γ)/β)^cしたものがある分布にしたがうとして,一般化すると,一般化ガンベル(対数ガンマ)分布,一般化ロジスティック分布,一般化指数分布などを得ることができます.

===================================