このシリーズは相加平均・相乗平均から始まったのであるが,大きく脇道にそれてしまった.ところで,日常生活において平均値というと専ら相加平均が計算され,相乗平均が用いられることはほとんどない.それでは相加平均はどのようなシーンで用いられるのだろうか?
精密機器の信頼性を定量的に評価する場合などに相加平均が用いられているのですが,今回のコラムではこれらについて逐次学んでいくことにします.まず確率分布モデルを理解するために,確率分布をハザード比の面から3つ(CFR,IFR or DFR)に分類してみることにします.
===================================
【1】ハザード比による分類(classification by hazard rate)
非負の値しかとらない変量であり,その分布が対称にならないような例として,機器の寿命分布があげられます.横軸に時間t,縦軸にある機器の故障率をとった分布曲線について考えてみましょう.
この確率密度関数をf(t)で表すと,時刻0から時刻Tまでの間に故障する確率は累積故障分布関数
F(T)=∫(0,T)f(t)dt
のようになります.したがって,時刻Tまで故障しない確率は
1-F(T)
時刻Tまで正常に動作してきた部品が引き続くT+dTの時間内に故障する条件付き確率は
P{T<X<T+dT|X>T}=f(T)/{1-F(T)}dT
になります.
ここで,関数
h(t)=f(t)/{1-F(t)}
はハザード関数,ハザード比,あるいは応用する分野によっては故障率関数などとも呼ばれています.これは寿命がtだけ続いた後,次の瞬間に故障が生ずる率を表していて,人間に置き換えれば死亡率に相当するものです.そのため,医学統計の分野では寿命分布という言葉が好んで用いられています.
このように確率密度関数と累積分布関数を一緒に用いると,分布関数のある性質<ハザード比>が見えてきます.h(t)が非減少関数の場合を増加ハザード比IFR(increasing failure rate),h(t)が非増加関数の場合を減少ハザード比DFR(decreasing failure rate),また,h(t)が一定の場合をCFR(constant failure rate)と呼びます.
実際のデータからハザード関数を求めると,最初の頃故障率が高く(初期故障期間),やがて故障率の低い安定期(偶発故障期間)を経て,最後の故障率が次第に高くなっていきます(磨耗故障時間).そのため,故障曲線はバスタブ(浴槽)型あるいはシップボトム(船底)型と呼ばれる曲線になることが多くなるわけですが,典型的故障率曲線の3つの期間の故障率関数は,それぞれDFR,CFR,IFRに該当します.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
CFRすなわちh(t)=λ(一定)になる分布は,連続分布では指数分布に限られます.指数分布は偶発故障のモデルとして利用されます.
また,IFRになる分布には正規分布や2重指数分布(ガンベル分布)を時間0で切断して得られる分布があります.ガンベル分布のtruncated form:
f(t)=1/θexp{t-(exp(t)-1)/t}
はゴンペルツ分布とも呼ばれます.これらは磨耗故障のモデルとして用いられます.レイリー分布もIFRに分類されますが,ハザード比線形であるという特徴をもっています.レイリー分布やゴンペルツ分布のように,f(t)=g'(t)exp{-g(t)}と表される分布のハザード比は線形となりますが,このような寿命分布としては
f(t)=(1+θt)exp{-(t+1/2θt^2)}
f(t)={1+θ(1-exp(-t))}exp{-(t+θ(t+exp(-t)-1)}
などもあげられます.
また,対数正規分布のハザード関数ははいったん増加した後に減少となる,すなわち,IFRで始まり途中からDFRに変わるユニークな分布です.
===================================
【2】寿命のモデル分布
ここでは代表的な寿命分布(指数分布・ガンマ分布・ワイブル分布)を取り上げます.寿命のモデル分布としては,これら以外にも多数の分布が知られていて,たとえば,逆ガウス分布や正規変数の単純な変換によって得られるBirnbaumーSaunders分布もユニークな特性をもち,しばしば用いられる寿命分布です.
(1)指数分布
故障の確率分布にはいろいろなモデルがありますが,その場合の基本的な分布は指数分布です.ポアソン過程から指数分布を導出してみることにしましょう.
時系列的に,ポアソン過程にしたがって発生する現象の代表が放射性物質の崩壊ですが,ある一定時間T内に放射性物質が自然崩壊する個数は確率的にはポアソン分布p(x)=exp(-mT)(mT)^x/x!(mは単位時間あたりの平均崩壊数)に従います.したがって,時間0からTまでの間に1個も崩壊しない確率はp(0)=e(-mT)になります.放射性元素の自然崩壊から次の自然崩壊までの時間間隔の分布がどのようになるかについて考えてみると,この値は相次いで起こる崩壊の間隔がTよりも大きい確率に相当しますから,求める時間間隔の確率をf(t)と書くと
∫(T,∞)f(t)dt=exp(-mT)
従って,f(t)=mexp(-mt):指数分布が得られます.
以上のように,放射性物質の自然崩壊の起こり方は確率的であり,その時間分布は理論的に計算できて,単位時間当たりの崩壊確率は指数分布になることが導かれます.ポアソン分布はごく稀にしか起こらない現象の確率分布ですが,ごく稀にしか起こらない現象の時間間隔の分布は指数分布になりますから,ポアソン分布と指数分布は表と裏の関係にあるというわけです.
また,この指数分布の累積分布関数は,
F(t)=1-exp(-mt)
ですから,崩壊しない放射性元素はn=n0exp(-mt),すなわち,放射性元素の原子核は一定の寿命で崩壊し,1つ1つの原子核がいつ崩壊するかはまったくわからない(確率的にしかわからない)のですが,全体としては時間の経過とともに指数関数的に減衰するということも理解されましょう.
原子核の崩壊は時間に無関係の一定の比率:dN/dt=-mNで起こりますが,工業製品でも安定動作中に予測できない故障が起こります.この故障は時間と無関係に発生し,次の故障がいつ起こるかわからないので,偶発故障と呼ばれています.指数分布は偶発故障のモデルになっています.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
(2)ガンマ分布
信頼性工学や生存時間解析において,指数分布はランダムなポアソン的傷害が加わると必ず故障するモデルであるのに対し,ガンマ分布はポアソン的傷害が何回か加わって故障に至るモデルとしてつくられています.
このような確率過程の例に,放射線の生体への影響をみる1標的多重打撃モデル(single target-multiple hit kinetics model)があります.1標的多打撃モデルでは,細胞の中に1個の標的(DNA)があり,放射線の照射によりこの標的にn回以上の障害が発生すると細胞が死に至るという確率過程を仮定します.tを放射線の照射線量,mは放射線の線量に比例する係数とすると,この標的内にx回のヒットが生じる確率はポアソン分布に従いますから,標的が致死的打撃をうけない確率は
Σ(0,n-1)p(x)=Γ(n,mt)/Γ(n)
になります.
前節に倣って時間間隔の分布を導出すると
f(t)=e-m(m)^(n-1)/Γ(n)
すなわち,このモデルはガンマ分布を用いて記述することができます.歴史的には,1950年代,指数分布に関する関心が高まり,その後,指数分布に近い確率分布に関心が向けられました.指数分布は自由度1のガンマ分布に相当し,また,指数分布の和の分布はガンマ分布になります.すなわち,ガンマ分布は指数分布の自然な拡張であり,必然性に中から生まれた寿命分布として導入された経緯があります.
ガンマ分布のハザード比は,母数の値によってIFR,CFR,DFRのいずれにもなります.したがって,ガンマ分布は3つの故障率のパターンのいずれにも対応し,融通性に富む分布といえます.また,ガンマ分布は再生性を有しているため,再生性をもつ寿命分布としても利用されます.しかし,累積分布関数が簡単に求められないという欠点があり,ワイブル分布より実用に供されることは少ないようです.
[補]放射線生物学における確率過程の例として,標的理論(target-hit theory)は非常に有名です.n=1のときが1標的1打撃モデルで,指数分布に帰着します.なお,多重標的1打撃の場合,生存率は1-(1-p(0))^m≒mp(0),多重ヒット多重標的の場合は読者の演習問題とします.なお,Γ(n,θ)は不完全ガンマ関数です.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
(3)極値極限分布(ワイブル分布とガンベル分布)
機器は非常に多くの独立な部品からなり,その1つの部品が破壊されれば全体が故障すると考えられる場合,全体の寿命は個々の部品の寿命の最小値に一致すると想定されます.このことから,最大値あるいは最小値の極限分布として,ワイブル分布や2重指数分布(ガンベル分布)が導かれました.この導出過程は他書に譲りますが,ワイブル分布は指数分布にしたがう確率変数のベキ乗変換であり,一方,2重指数分布は指数分布にしたがう確率変数の対数変換として導かれますから,これらの分布も指数分布を一般化した分布と考えることができます.
ワイブル分布は,ある製品を使用していて,故障の原因がランダムに発生するが,使用期間の初期にはそれが故障に至る確率は小さく,時とともにその確率が大きくなっていくという仮説に基づいて得られた関数です.これは,同じ風邪をひいても青年期には2日もあれば治ってしまうのに対し,高齢者の場合には命取りになってしまう状況とよく似ています.
ワイブル分布は1939年にスェーデンの物理学者ワイブルによって素材強度を解析するための「最弱リンクモデル」として提案された分布で,取り扱いが容易なため,多くの分野で適用されています.
鎖の強度を求めるため,次のような定式化をおこなってみましょう.n個の環で作られた鎖の両端に張力をかけたとき,1つの環が切れる確率をpとすれば,鎖が切れない確率は
pn =(1−p)^n
exp(-p)=1-p+p^2/2!-p^3/3!+・・・
ここで,pは十分小さい数ですからexp(-p)≒1-pを代入すると
pn〜exp{ーp^n}
となることからワイブル分布が導出されています.すなわち,べき乗変換
y=(x/β)^α
したものが指数分布f(y)=exp(-y)にしたがうとするとxの分布は
f(x)=α/β(x/β)^α-1exp(−(x/β)α )
0≦x<∞
式で表されることになり,ワイブル分布は指数分布を一般化した分布と考えることができます.
ワイブル分布のハザード関数は
h(t)=m/θ(t/θ)^(m-1)
ですから,mの値に応じて
m<1・・・・・DFR→初期故障
m=1・・・・・CFR→偶発故障
m>1・・・・・IFR→磨耗故障
と分類され,故障の各パターンと対応づけられます.このように,ワイブル分布では形状母数の導入によって融通性が拡大され,形状母数の値を変えると初期故障,偶発故障,磨耗故障の3つの期間すべてをカバーすることができます.このように,ワイブル分布は形状母数の変化にともなってハザード関数が多様に変化し,ガンマ分布よりさらに使いやすい性質をもっているので,安全性工学など工業的な応用分野で広く採用されています.
===================================