■初等数学の問題(その7)

 (その6)を補足しておきたい.

===================================

【1】指数分布

 指数分布は,寿命や事故の発生間隔のように,本質的に非負の値をとりながら0に近い値をとる確率が無視できない量に使われる基本的分布です.その確率密度関数

  f(x)=1/β・exp(−x/β)

  0≦x<∞

は尖点に向かって立ち上がり,そして反対方向ではだんだん小さくなっていくJ字形曲線(Jを裏返したかのような曲線)を描きます.

  mean=β,variance=β^2

[1]ポアソン過程の時間間隔の分布

 指数分布はポアソン過程とも関連していて,ガンマ分布においてα=1のときが指数分布ですから,ポアソン過程の例では,初めて事象が起こるまでの時間(たとえば待ち時間とか寿命とか)に解釈されます.

(例)客の到着時間間隔が指数分布λe(−λt)のとき,任意の時間区間(t,t+h)にk人の客が到着する確率は,tの取り方に関係せず,ポアソン分布の確率密度e(−λh)(λh)^k/k!で表される.到着分布でもっとも扱いやすいのは指数分布であって,幸いなことにこれがよくあてはまる実例が多い.

[2]記憶の欠如(no memory property)

 指数分布は記憶をもたない分布P{X>x+x0/X>x0}=P{X>x}としてよく知られていて,無記憶性分布(過去の履歴に無関係な分布)は,連続分布では指数分布以外には存在しません.また,指数分布を寿命分布として考えると一定のハザードレート(危険率)をもつ分布ということになります.これは指数分布のtruncated formが単にshiftさせたものと同じになることからも理解されます.

(例)たとえば,客のサービス時間が平均3分の指数分布に従うことがわかっているとする.ある客のサービスが始まってからもう2分たってしまったが,まだ終了しない.これからさらに平均何分たったら終了すると考えられるか?

 3分−2分=1分でサービスが終了するであろうなど誤解してはならない.指数分布は過去の履歴(すでに2分経過しているという条件)に無関係で,これからさらに平均3分たってサービスが終了するとみなければならない.平均待ち時間は,ある意味では気休め程度のものでしかないということになる.指数分布では平均=標準偏差で,これはかなり大きなばらつきをもつことになるからである.したがって,現実に何らかの問題を決定したいようなときにはばらつきも考慮に入れたほうがよい.

[3]和と差の分布

 独立な指数確率変数の和はアーラン分布,また独立な2つの指数確率変数の差の分布は両側指数分布(ラプラス分布)になります.

(例題)指数分布f(x)=λexp(-λ)のn回合成積はアーラン分布となることも帰納法で示すことができます.

f1(x)=λexp(-λ)

f2(x)=integral(0,x)f1(x-t)f1(t)dt=λ2xexp(-λx)

f3(x)=integral(0,x)f2(x-t)f1(t)dt=λ3x^2/2exp(-λx)

・・・・・・・・・・・・・・・・・・・・・・・・・・

f10(x)=integral(0,x)f9(x-t)f1(t)dt=λ10x^9/9!exp(-λx)

 なお,自由度2のχ^2分布は指数分布となり,さらにまたχ^2分布もアーラン分布もガンマ分布の1種です.

[4]逆関数法による各種乱数の発生法

 変換y=-logxは一様乱数R(0,1)を平均値1の指数分布をもつ乱数に変換するのに用いられます.

(証明)p(x)=1(0<x<1),x=exp(-y),dx=|-exp(-y)|dy

したがって,q(y)dy=p(x)dx=exp(-y)dyより,q(y)=exp(-y):平均値1の指数分布(自由度1のガンマ分布)が得られる.

 スケールパラメータθの指数分布,すなわち,平均値θの指数分布乱数は変換

  y=-1/θlogx

によって得ることができます.たとえば,y=-2logxは一様乱数を平均値2の指数分布に変換します.

  y=-1/θlog(u1*u2*・・・*uk)

とすると平均値θ,自由度kのガンマ乱数が得られますが,kが大きいときには効率的ではなく,またkが整数でないときにはこの方法は適用できません.

 レイリー分布やワイブル分布は指数分布に基づく分布と考えることができますが,z=(-2logx)^(1/2)と変数変換すると

  x=exp(-z2/2),dx=zdz

  p(x)dx=zexp(-z^2/2)dz

よりzの分布はレイリー分布となります.レイリー分布はシェイプパラメータ2のワイブル分布であり,同様にしてスケールパラメータβ,シェイプパラメータαのワイブル乱数は

  x=−β{log(u)}^(1/α)

として発生させることができます.

===================================

【2】ガンマ分布

  f(x)=1/(βΓ(α))・(x/β)m-1 ・exp(−x/β)

  0≦x<∞

  mean=αβ,variance=αβ^2,mode=(α-1)β

 ガンマ分布は2個のパラメータα,βを用いて,上式で定義される分布です.αが整数のときのガンマ分布はアーラン分布とも呼ばれます.そして,アーラン分布を自然数以外に拡張して得られる分布がガンマ分布です.

 上式で定義される分布を正規分布に倣ってG(α,β)と表現しますが,βはスケールの取り方に関係するパラメータ(尺度母数)で,厳密な意味では曲線の形に影響を及ぼすものではなく,単に縦横の座標を伸縮するのと同じ意味をもつにすぎません.

 αのほうは曲線の本質的な形を決定するパラメータ(形状母数)です.ガンマ分布の分布曲線はα≦1のときJ字型曲線となって単調減少の傾向をとります.とくに,α=1のときが指数分布

  f(x)=1/β・exp(−x/β)

になります.指数分布はガンマ分布の特殊な場合であり,G(1,β)に相当するというわけです.また,α>1のとき単峰型曲線となって,αが大きくなるほど幅の広いなだらかな分布で同時に非対称性が少なくなります.このように形状母数αは尺度母数βに比して重要な意義をもっています.

[1]指数分布から導き出された分布

 変数xiが指数分布f(x)=1/βexp(-x/β)=G(1,β)にしたがうとき,Σxiはアーラン分布G(n,β)にしたがいます.

 ガンマ分布は非対称で正にゆがんだ分布を表わすものとして,ワイブル分布,対数正規分布とともによく用いられていますが,対数正規分布と異なり,指数分布するデータから理論的に導き出された分布で,必然性の中からうまれたという経緯があります.すなわち,独立な指数確率変数の和の分布というのが,ガンマ分布の最も重要な性質です.

[2]αに関する再生性

 変数xiがガンマ分布G(αi,β)にしたがうとき,Σxiはガンマ分布G(Σαi,β)にしたがいます.すなわち,ガンマ分布にしたがう変数の和もガンマ分布になるという性質をもっています.

[3]ポアソン過程との関連

 確率過程とは各瞬間での変化の様相が不確定で,その確率だけが与えられているようなプロセスを指します.ポアソン分布はごく稀にしか起こらない現象の確率分布ですが,時間的にポアソン分布にしたがう確率過程がポアソン過程です.ポアソン過程の時間間隔の分布は指数分布に従いますから,アーラン分布は,ポアソン過程でm回事象が起こるまでの時間分布として求められます.

 ガンマ分布はその累積分布関数が不完全ガンマ関数となることから命名されていますが,基本統計量にガンマ関数が出現する分布やガンマ分布から派生する分布は,再生性をもつ寿命分布として利用されているほか,ランダムな故障発生や到着の時間間隔,サービス時間などの解析に用いられ,待ち行列論,通信トラフィック理論,信頼性工学,システム工学などの分野において重要な役割を果たしています.

===================================

【3】ワイブル分布

  f(x)=α/β(x/β)α-1exp(−(x/β)α )

  0≦x<∞

 ワイブル分布においてα=1の場合が指数分布,α=2の場合がレイリー分布です.また,xをワイブル分布にしたがう変数とすると,y=logxは二重指数分布(後述)にしたがうことになります.

μ'r=βrΓ(r/α+1)

mean=βΓ(1/α+1)

variance=β2{Γ(2/α+1)-[Γ(1/α+1)]^2}

mode=β(l-1/α)^(1/α)

median=β(log2)^(1/2)

[1]融通性のよさ

 ワイブル分布は上式の関数形で与えられますが,この式でαは形状母数,βは尺度母数と呼ばれます.ワイブル分布ではシェイプパラメータαの値を変えると形が種々に変化し,α=1のときこの分布は指数分布となり,αの値が小さいほどガンマ分布より非対称性の強い分布を与え,α>3〜4の場合にはほぼ正規分布の代用となるような対称的な形になります.そのため,ガンマ分布よりあてはめの融通性がよくなっています.

[2]寿命時間分布

 今日まで多くの寿命データがワイブル分布に従うことが実証されていて,たとえば,機械が故障するまでの時間の分布,すなわち寿命時間分布としてよく知られています.また,ワイブル分布のハザードレートを計算すると(その6)のようにユニバーサルであり,この点がいろいろな分野でワイブル分布が用いられる理由です.

 ワイブル分布はn次元空間でポアソン分布する点の配置に密接な関係があり,最近接点間の距離の分布はワイブル分布に従うことを一般的な形で誘導することができます.

 ワイブル分布は,形状母数の値によって多様な形状を示します.逆にいうと,ワイブル分布にあてはまらないケースは考えにくく,そのため,ワイブルユーフォリア(Weibull euphoria)という好ましくない傾向を生じていることも見逃せません.ユーフォリアは幸せな気分に浸っている状態(多幸感)を表す医学用語ですが,バブル経済期の日本のごとく,妄想に浮かれている状態を指すといったほうが適当かもしれません.ワイブル分布だけを闇雲に盲信し,他の分布を軽視する衒学的な姿勢は厳に慎まなければなりません.

===================================

【4】二重指数分布(ガンベル分布)

 n個の観測値の最大値や最小値のことを極値といいます.正規分布に限らず,任意の連続分布から独立に抽出したn個の標本の最大値あるいは最小値の分布のモデルが二重指数分布(ガンベル分布)です.

 最大値や最小値の分布はnとともにずれていきます.そこで,nが大きいとき,漸近的に位置=尺度モデルに収束するための条件{G(x)}^n=G(a+bx)の解を考えると,このような統計量の極限分布は3種類ある極値分布すなわちガンベル分布,フレッシェ分布,ワイブル分布のいずれかになります.フレッシェ分布は,ワイブル分布と正負の方向が違うだけのいわば負のワイブル分布で,独立した名称を与えること自体あまり意味をもちません.そこで,ここでは二重指数分布(ガンベル分布)を取り上げてみます.

 n→∞のときの最大値の極限分布(ガンベルの最大値分布)は

  F(x)=exp[-exp{-(x-α)/β}]

  f(x)=1/βexp{-(x-α)/β}exp[-exp{-(x-α)/β}]

と書き表されます.すなわち,y=exp{-(x-α)/β}が指数分布にしたがうならば,xは二重指数分布にしたがうことになります.また,この分布はワイブル分布に従う確率変数xを対数変換したものの分布,すなわち対数ワイブル分布とも考えることもできます.

mean=α+γβ γ:オイラーの定数(0.577・・・)

variance=β^2π^2/6

mode=α

median=α−βlog(log2)

 機器は非常に多くの独立な部品からなり,その1つの部品が破壊されれば全体が故障すると考えられる場合,全体の寿命は個々の部品の寿命の最小値に一致すると想定されます.このことから,極値分布は寿命データの解析などに応用されています.また,ガンベル自身はこの分布を洪水データの解析や雨量予測,治水など自然現象の解析に用いています.ガンベル分布とそのtruncated form (切断分布)はワイブル分布ほど知られてはいませんが,もっと応用されるべき特性を有しています.

===================================