■ポワソン配置とワイブル分布(雑然か整然か)
元来,正規分布は−∞から∞までの間にわたって変動しうる量に関して適用される確率分布である.たとえば,標的のまわりの弾丸のバラツキなどは,正規分布で近似させるには最も適した現象であろう.
しかし,正の値のみをとり負になりえない量を正規分布で近似させるとうまくいかないことが甚だ多い.常に正である量を扱う場合であっても,人の身長のように平均値付近にデータが集中しほぼ左右対称になるような場合には,正規分布で近似してもそれほど違いを生じないと思われるが,ともかく,非負の値しかとらない変量で,その分布が対称にならないような例では,正規分布は一般性をもった理論分布とはいえないのである.
さて,平面上または空間中に無作為に配置(ポアソン配置)した点の集団があるとしよう.このとき,ある点からその最も近い点(最近接点:nearest neighbor)に至るまでの距離rの分布を考える.
距離の分布であるから0≦r<∞である量を扱っていて,この分布はrの値の大きい方に裾をひいた非対称性分布となる.この分布は正規分布にはならないのだが,それではどのような分布に従うのであろうか? また,雑然と整然の度合いについて考えてみようというのが,今回のコラムのテーマである.
===================================
【第1部】
最初に,平面上にポアソン配置した点の集団があるとする.この点の密度をδとすると,面積sの図形の中に落ちる点の数の期待値λは
λ=sδ
で与えられる.仮定により,面積sの図形の中に落ちる点の数xは,平均λ=sδのポアソン分布に従う(あるいは近似できる)から,
B(x)=(sδ)^x/x!exp(-sδ) x=0,1,2,・・・
と書くことができる.
さて,任意の1点をとったとき,最近接点に至るまでの距離をr,そしてrとr+drの間に落ちる確率をp(r)drとし,この確率を求めてみよう.このとき,2つの条件
1)ある点から半径rの円内には全く他の点が存在しない
2)ある点を中心として半径rとr+drの円で区切られた微小な環状面積に少なくとも1個の点が存在する
を満足させる必要がある.
条件1)からはs=πr2,x=0とおいて,
B(0)=exp(-πδr2)
条件2)からはs=2πrdrとおいて,この面積中に1個も落ちない確率B(0)を1から引けばよいから,
1−B(0)=1−exp(-2πδrdr)〜2πδrdr
条件1)2)とも満たす確率は両者の積で与えられるから,
p(r)dr=2πδrexp(-πδr2)dr
となる.
ここで,β^2=1/πδとおけば
p(r)=2/β^2rexp(-(r/β)^2)
すなわち,レイリー分布が得られる.この分布はワイブル分布:
f(x)=α/β(x/β)^(α-1)exp(-(x/β)^α)
で,形状母数をα=2とおいた場合に相当する.
次に,距離rの平均値rmは
∫(0,∞)rp(r)dr=Γ(3/2)/√πδ=1/2√δ
より,最近接点の平均距離は点の密度の平方根に逆比例するという簡潔な結果を得る.この結果は直感的にも納得のいくものであろう.
rの分布はレイリー分布であって,もちろん正規分布にはならないが,中心極限定理により,最近接点間の距離の平均値rmの分布には正規分布を仮定した検定法が適用できる.「平均値μと分散σ2をもつような任意の分布に対して,その標本平均の確率分布が,n→∞の極限で,正規分布N(μ,σ2/n)になる.」このような内容の定理を中心極限定理といい,自然界における正規分布の普遍性を説明する1つの根拠とされている.距離rの分散rvは,
∫(0,∞)(r−rm)^2p(r)dr=1/πδ(1−π/4)
となるから,中心極限定理により,標本平均の漸近分布は正規分布N(rm,rv/n)に収束することがいえるのである.
また,rm=1/2√δの1/2という係数はポアソン配置に関係するものであるが,いかなる配置の点であっても,一般的に
rm=q/√δ
の形で書くことができる.点が密集し無作為配置からはずれるとき,qの値は1/2より小さくなり,完全に一点に集結するならばq=0となる.
一方,規則的な配置,たとえば,3通りある平面充填形〈正三角形,正方形,正六角形〉配置の場合でみてみると,qの値は1/2より大きくなり,qの値が最大値をとるのは,点が正三角形配置したときであって,その場合,格子の面積をsとすれば,s=√3/4rm^2,また,格子には1/6×3=1/2個の点が割り当てられる関係になるから,δ=2/√3rm^2より
q=1.074
を得る.同様に正方形格子では,δ=1/rm^2より
q=1
正六角形格子では,δ=4/3√3rm^2より
q=0.877
となる.
なお,理論的にはq値が1/2であっても無作為でない配置もありうるので,厳密にはrの分布の形を調べる必要も起こりうるが,実際にはこのような心配はあまりないとみてよく,q値は雑然と整然の度合いを測るひとつの指標となりうるであろう.
===================================
レイリー分布は形状母数2のワイブル分布であるが,この分布は2つの顔をもっていて,χ分布において自由度2としたものでもある.
χ分布の書式に則して書くと,上式は,レイリー分布の確率密度関数:
f(x)=x/σ^2exp(-x^2/2σ^2)
において,σ^2=1/2πδとしたものに相当する.
すなわち,形状母数2のワイブル分布は,特別な性格をもつワイブル分布の特殊形なのである.特別な性格についてもう一度まとめておくが,
1)レイリー分布はワイブル分布の1種であり,ポアソン過程で生成された個々の点の最近接点との距離の分布となっている.
2)レイリー分布は自由度2のχ分布であり,自由度2のχ2分布は指数分布であるから,レイリー分布は指数分布にしたがう確率変数の平方根の分布と理解することができる.
一般に,χ分布はn次元正規分布おける原点からのユークリッド距離の確率分布として導きだされるものである.2)の意味で,レイリー分布は,いわゆる2次元標的問題の解となる分布であるが,その導出過程についてコラム30「標的問題の解とχ分布」を参照されたい.
なお,応用面では,レイリー分布は2次元の標的問題(ミサイルなどの目標地点と実際の着弾地点の距離分布)に適用されるほかに,通信工学分野(電気回路の雑音の特定の周波数について,振幅rと位相θとの組合せはレイリー分布に従う)など極めて重要な応用領域をもっている.
===================================
以上は,平面上の点の配置の分析であるが,3次元の空間中の点の配置についても同様の議論となるから,3次元空間におけるrの分布は,形状母数3のワイブル分布:
f(x)=3/β(x/β)^2exp(-(x/β)^3)
か,3次元標的問題の解である自由度3のχ分布(マクスウェル分布):
f(x)=2^(3/2)/σ^3x^2exp(-x^2/2σ^2)
のいずれかになるであろうと思われる.
指数関数の引き数は前者が3乗,後者は2乗の形である.読者諸賢のなかには,直感的にワイブル分布になると推測した人もいると思うが,マクスウェル分布になると勘違いしている人も少なくないと思う.誘導を試みたい.
体積vのなかにはいる点の期待値は
λ=vδ
また,条件1)は,v=4/3πr3とおいて,
B(0)=exp(-4/3πδr3)
条件2)は,v=4πr2drとおいて,
1−B(0)=1−exp(-4πδr2dr)〜4πδr2dr
したがって,
p(r)dr=4πδr2exp(-4/3πδr3)dr
ここで,β^3=3/4πδとおけば
p(r)=3/β(r/β)^2exp(-(r/β)^3)
すなわち,形状母数3のワイブル分布が得られる.
また,rの平均値rmは
∫(0,∞)rp(r)dr=(4/3π)^(-1/3)Γ(4/3)/3√δ
より,最近接点の平均距離は点の密度の立方根に逆比例するという結果を得る.
3次元の場合も,
rm=q/3√δ
の形で書くことができ,ランダム配置であれば,
q=0.5540
となる.
また,点が均等配置に近づけばqの値は大きくなるはずである.たとえば,立方格子配置であればv=rm^3に対して1個の点が割り付けられるから,δ=1/rm^3,それゆえ,この場合は
q=1
となる.
次に,立方格子をゆがめて,すべての辺の長さの等しい平行六面体格子をつくってみる.平行六面体も空間充填多面体の1つであるからである.
平行六面体の体積は,スカラー三重積a・(b×c),すなわち,ベクトルaと外積b×cの内積で与えられるから,辺a,b,cが互いに60°の角度をなすようにすると,平行六面体の体積は最小値v=rm^3/√2,したがってqの最大値は
q=6√2=1.1225
となる.
===================================
ここまでの話をまとめて表示しておくことにする.
1)最近接点間の距離の分布はワイブル分布に従う.
2)平面上の配置した点の最近接点間の平均距離が最大値をとるときは,点の配置が正三角形の頂点に等間隔に配置するときであり,空間中の点については,点の配置が立方格子の格子線の交角を60°になるようにゆがめたときである.
2次元,3次元ときたからには,最後に,任意の次元における最近接点間の距離の分布がワイブル分布になることを一般的な形で誘導しておこう.
球に相当するn次元の図形を超球と呼ぶ.n次元単位超球{x12+x22+・・・+xn2≦1}の体積をvnとすると,単位超球の表面積sn-1はnvnとなる.これより,
p(r)=sn-1δr^(n-1)exp(-vnδr^n)
=nvnδr^(n-1)exp(-vnδr^n)
ただし,
vn=π^(n/2)/Γ(n/2+1)
n Vn
1 2
2 3.14
3 4.19
4 4.93
5 5.263
6 5.167
7 4.72
8 4.06
9 3.30
10 2.55
である.この導出方法についてもコラム30「標的問題の解とχ分布」を参照されたい.
ここで,β^n=1/vnδとおけば
p(r)=n/β(r/β)^(n-1)exp(-(r/β)^n)
すなわち,形状母数n,尺度母数1/n√vnδのワイブル分布が得られる.
また,平均距離rmは
rm=Γ(1+1/n)/n√vnδ
で与えられる.
n=1の場合,
p(r)=2δexp(-2δr)
また,rm=q/δにおいて,ポアソン配置ならばq=1/2,均等配置ならばq=1となる.
これより,1次元における最近接点間の距離の分布は指数分布になることがわかったが,1次元の場合は,空間軸よりも時間軸上でポアソン配置する現象を扱う際に用いられることが多く,たとえば,銀行の窓口にお客がやってくるときの待ち時間の解析などに利用されている.
確率過程とは各瞬間での変化の様相が不確定で,その確率だけが与えられているようなプロセスを指す.時間的にポアソン分布にしたがう確率過程がポアソン過程であるが,指数分布はポアソン過程とも関連していて,初めて事象が起こるまでの時間間隔の分布と解釈することができる.
待ち時間とか寿命とかでは,指数分布がよくあてはまる実例が多いのだが,逆に,客の到着時間間隔が指数分布:λexp(−λt)のとき,任意の時間区間(t,t+h)にk人の客が到着する確率は,tの取り方に関係せず,ポアソン分布の確率密度:exp(−λh)(λh)^k/k!で表される.
また,指数分布は記憶をもたない分布(過去の履歴に無関係な分布)であって,たとえば,客のサービス時間が平均3分の指数分布に従うことがわかっているとする.ある客のサービスが始まってからもう2分たってしまったが,まだ終了しない.これからさらに平均何分たったら終了すると考えられるか? 3分−2分=1分でサービスが終了するであろうなど誤解してはならない.指数分布は過去の履歴(すでに2分経過しているという条件)に無関係で,これからさらに平均3分たってサービスが終了するとみなければならない.平均待ち時間は,ある意味では気休め程度のものでしかないということになる.このような,無記憶性分布(no memory property)は,連続分布では指数分布以外には存在しない.
===================================
これまでは点の配置の様式が等方的であり,最近接点をとる方向は全く自由であるとしてきた.しかし,実際には点の配置の様式が方向によって異なる場合も当然あり得ることで,このような時には方向ごとに点の配置の分析を行う必要が起こってくる.この目的のための式を追加しておく.
いま関心領域が,n次元空間中で角θの方向に制約されているものとしよう.この超扇形は超球中に対称的に広がる2つの超扇形をつくることになるから,超扇形の占める超体積は超球全体の
2θ/sn-1=2θ/nvn
倍になる.したがって,この上に存在する点の数も全体の点の数の2θ/nvn倍になる.それゆえ,点の密度δを2θ/nvn倍にして,rの分布を求めることと内容的には同一になる.
p(r)=2θδr^(n-1)exp(-2θδ/nr^n)
rm=Γ(1+1/n)/n√2θδ/n
===================================
【参考文献】
1)諏訪紀夫「定量形態学」岩波書店
2)コラム30「標的問題の解とχ分布」
===================================
【第2部】
第1部では,ワイブル分布はn次元空間でポアソン分布する点の配置に密接な関係があることがおわかり頂けたと思います.世の中に出回っている分布には,それぞれの意味や由来があり,それを知っておけば親しみも湧き理解にも深みが生まれるでしょうから,第2部ではワイブル分布の氏素性を明らかにしてみることにします.
故障や寿命の確率分布にはいろいろなモデルがありますが,その場合の基本的な分布は指数分布です.歴史的には,1950年代,指数分布に関する関心が高まり,その後,指数分布に近い確率分布に関心が向けられました.
信頼性工学や生存時間解析において,指数分布はランダムなポアソン的傷害が加わると必ず故障するモデルであるのに対し,ガンマ分布はポアソン的傷害が何回か加わって故障に至るモデルとしてつくられています.指数分布は自由度1のガンマ分布に相当し,また,指数分布の和の分布はガンマ分布になります.すなわち,ガンマ分布は指数分布の自然な拡張であり,必然性に中から生まれた寿命分布として導入された経緯があります.
一方,機器は非常に多くの独立な部品からなり,その1つの部品が破壊されれば全体が故障すると考えられる場合,全体の寿命は個々の部品の寿命の最小値に一致すると想定されます.このことから,最大値あるいは最小値の極限分布として,ワイブル分布や2重指数分布(ガンベル分布)が導かれました.ワイブル分布は指数分布にしたがう確率変数のベキ乗変換であり,一方,2重指数分布は指数分布にしたがう確率変数の対数変換として導かれますから,これらの分布も指数分布を一般化した分布と考えることができます.
ワイブル分布は,ある製品を使用していて,故障の原因がランダムに発生するが,使用期間の初期にはそれが故障に至る確率は小さく,時とともにその確率が大きくなっていくという仮説に基づいて得られた関数です.これは,同じ風邪をひいても青年期には2日もあれば治ってしまうのに対し,高齢者の場合には命取りになってしまう状況とよく似ています.
また,ワイブル分布は,形状母数の変化にともなってハザード関数が多様に変化し,ガンマ分布よりさらに使いやすい性質をもっているので,安全性工学など工業的な応用分野で広く採用されています.
===================================
ワイブル分布は,1939年にスェーデンの物理学者ワイブルによって素材強度を解析するための「最弱リンクモデル」として提案された分布です.鎖の強度を求めるため,次のような定式化をおこなってみましょう.
n個の環で作られた鎖の両端に張力をかけたとき,1つの環が切れる確率をpとすれば,鎖が切れない確率pnは
pn=(1−p)^n
また,
exp(-p)=1-p+p^2/2!-p^3/3!+・・・
ここで,pは十分小さい数ですから,exp(-p)〜1-pを代入すると
pn〜exp{ーp^n}
となることから,ワイブル分布が導出されています.
すなわち,べき乗変換y=(x/β)^α したものが,指数分布f(y)=exp(-y)にしたがうとするとxの分布は式
f(x)=α/β(x/β)^(α-1)exp(-(x/β)^α) 0≦x<∞
表されることになり,ワイブル分布は指数分布を一般化した分布と考えることができます.
ワイブル分布において,α=1の場合が指数分布,α=2の場合がレイリー分布です.また,xをワイブル分布にしたがう変数とすると,y=logxは二重指数分布(ガンベル分布)にしたがうことになります.
μ'r=βrΓ(r/α+1)
mean=βΓ(1/α+1)
variance=β2{Γ(2/α+1)-[Γ(1/α+1)]^2}
mode=β(l-1/α)^(1/α)
median=β(log2)^(1/2)
ワイブル分布は取り扱いが容易なため,多くの分野で適用されていますが,その特長をまとめてみましょう.
1)融通性のよさ
ワイブル分布は上式の関数形で与えられますが,この式でαは形状母数,βは尺度母数と呼ばれます.ワイブル分布ではシェイプパラメータαの値を変えると形が種々に変化し,α=1のときこの分布は指数分布となり,αの値が小さいほどガンマ分布より非対称性の強い分布を与え,α>3〜4の場合にはほぼ正規分布の代用となるような対称的な形になります.そのため,ガンマ分布よりあてはめの融通性がよくなっています.
ワイブル分布は,形状母数の値によって多様な形状を示します.逆にいうと,ワイブル分布にあてはまらないケースは考えにくく,そのため,ワイブルユーフォリア(Weibull euphoria)という好ましくない傾向を生じていることも見逃せません.ユーフォリアは幸せな気分に浸っている状態(多幸感)を表す医学用語ですが,バブル経済期の日本のごとく,妄想に浮かれている状態を指すといったほうが適当かもしれません.ワイブル分布だけを闇雲に盲信し,他の分布を軽視する衒学的な姿勢は厳に慎まなければなりません.
2)寿命時間分布
実際のデータからハザード関数を求めると,最初の頃故障率が高く(初期故障期間),やがて故障率の低い安定期(偶発故障期間)を経て,最後の故障率が次第に高くなっていきます(磨耗故障時間).そのため,故障曲線はバスタブ(浴槽)型あるいはシップボトム(船底)型と呼ばれる曲線になることが多くなるわけですが,ワイブル分布のハザード関数を計算すると,
h(t)=α/β(t/β)^(α-1)
ですから,αの値に応じて
α<1・・・・・DFR→初期故障
α=1・・・・・CFR→偶発故障
α>1・・・・・IFR→磨耗故障
と分類され,故障の各パターンと対応づけられます.
このように,ワイブル分布では形状母数の導入によって融通性が拡大され,形状母数の値を変えると初期故障,偶発故障,磨耗故障の3つの期間すべてをカバーすることができます.今日まで多くの寿命データがワイブル分布に従うことが実証されていて,たとえば,機械が故障するまでの時間の分布,すなわち寿命のモデル分布としてよく知られています.