■確率分布・各論(その1)

【1】確率分布関数の分類

 確率分布関数を分類するには,いくつかの方法が考えられます.

観測値の性質によって

1.離散分布か連続分布か(continuous or discrete)

2.観測値の範囲に限界があるかないか(finite or infinite)

3.対称か非対称か(symmetric or asymmetric)

4.非対称だとすれば左右どちらにゆがんでいるのか(right-skewed or left-skewed)

5.1変量分布か多変量分布か(univariate or multivariate)

などを区別することが可能です.

 ここでは1変量分布のみを取り上げますが,実践的には,左右対称・正にゆがんだ分布・負にゆがんだ分布に大別し,さらに変数の変域が非負かどうかによって細別する方法が実務家には合っているように思われます.

 たとえば,確率密度関数をあてはめる場合,平均値をはさんで左右対称に近い分布であれば正規分布やコーシー分布,ロジスティック分布,ラプラス分布などがいろいろな分野でよく活用されています.

 しかし,これらの対称分布は負から正にわたって変動しうる量に適用されるものであるため,正の値のみをとり負になりえない変数では対称分布の仮定が難しくなります.そのため,非負の値をとる場合は,これらの分布よりも高値に裾が長い非対称分布(正にゆがんだ分布:right-skewed )を想定するほうが自然だと考えられます.正にゆがんだ分布では,対数正規分布,ガンマ分布,ワイブル分布などが実用上の価値が大きい分布として知られています.

 一方,左に長いすそをもつ非対称分布(負にゆがんだ分布:left-skewed)はほとんど知られていませんし,実際詳しく研究されてもいません.しかし,正にゆがんだ分布の位置=尺度母数モデルg(x)=1/δf{(x-γ)/δ}において,x−γをγ−xと入れ替えるとx軸のスケールを反転させたのと同じことになり,右寄りに最頻値があらわれた分布を得ることができます.

 また,正にゆがんだ分布でも負にゆがんだ分布でも,適用できる分布としてベータ分布があげられます.たとえば,試験の得点は正規分布になると考えられているようです(正規分布神話)が,試験成績のように上限・下限が存在してしかも対称形になるとは限らないデータではむしろベータ分布などを適用すべきとする意見もあり,実際,共通1次試験の点数分布にはベータ分布が一番よくあてはまります.

===================================

【2】左右対称の連続確率分布

(1)正規分布

f(x)=1/√2πσ・exp(−(x−μ)^2/2σ^2)

−∞<x<∞ 

平均値μ(mode,medianとも)

分散σ^2

平均値まわりの積率μnは

E[(x-μ)^n]=0  (nが奇数のとき)

E[(x-μ)^n]=1・3・・・(n-1)σn  (nが偶数のとき)

 年齢を固定したときの人間の身長の分布など,連続な値をとる測定値に対してヒストグラムを作成したときには単峰性で左右対称な形になることが多いのですが,その場合,ヒストグラムにあてはまる関数として上式がよく想定されます.この式は正規分布の確率密度関数と呼ばれます.

 正規分布はガウス分布とも呼ばれ,歴史的にはド・モアブルが誤差のモデルとして導き,のちにラプラスとガウスが最小2乗法との関連で,それぞれ同じ曲線を再発見したといわれています.

 また,観測値の誤差が小さな多数の誤差の素から成り立っているという考え方を最初に示したのは,ヤングであるといわれていますが,ヤングのあとハーゲンらは,この考え方を基礎にして正規分布を,ハーゲンのモデル,すなわち,たくさんの微小量がランダムに組み合わさったときに現れる一般的な誤差の分布関数として導きだしました.

 測定値は近似的に正規分布にしたがうと仮定されていますが,実際の測定結果は必ずしも正規分布にしたがうものではありません.しかしながら,母集団が正規分布でないときであっても,中心極限定理により,標本平均値の分布は測定回数が増えるにつれて正規分布に近づきます.中心極限定理は正規分布のもつ重要性を物語っていて,正規分布は数理統計学,誤差論などの分野で最も重要な分布とみなされ,卓越した地位を占めるにいたっているのです.

(特性と形状)

 母平均がμ,母分散がσ^2の正規分布はN(μ,σ^2)と書き表わされますが,μを位置母数,σを尺度母数として左右対称で左右に長くすそをひく釣り鐘型の分布曲線になります.そのグラフは山の高さがσに反比例して小さくなり,山の裾がσに比例して広がります.本質的な意味での形状母数に相当するものはありません.

 静かな水面にインクを一滴たらすとインクで染められた部分がどんどん拡散していきますが,この濃度分布は正規分布においてσ^2を時間tに置換した式になっていて,この分布はインク分子が一定時間内に移動する距離の確率分布としても用いられます.すなわち,典型的な拡散過程では,時刻tには初期値から√tのオーダー離れた場所にいることを示しています.

 また,

f’(x)=(−(x−μ)/σ^2)f(x),

f”(x)=−1/σ^2(1+(x−μ)/σ)(1−(x−μ)/σ)f(x)

であることから,f(x)はx=μで最大値をとり,x=μ±σで変曲点となります.正規分布では,区間[μ−σ,μ+σ]に68.3%,[μ−2σ,μ+2σ]に95.4%,[μ−3σ,μ+3σ]に99.7%の観測値が入ります.ほとんどの観測値が[μ−3σ,μ+3σ]に入ることを利用して,工場では品質管理を行っています.それが3σ法で,有用なQCテクノロジーの1つになっています.

 なお,正規分布は負から正にわたって変動しうる量に適用されるものであるため,正の値のみをとり負になりえない変数では正規分布の仮定が難しいとされます.しかし,あまりうるさいことを言わないなら,平均値付近にデータが集中しほぼ左右対称になるような場合には正規分布で近似してもそれほど違いを生じないと思われます.

(性質)

 もう一度,正規分布の重要な性質をおさらいしておきます.

1.中心極限定理

 正規分布に限らず,独立な確率変数xiがいずれも同一の平均値μと分散σ^2をもつような任意の分布に対して,その標本平均の確率分布はn→∞の極限で正規分布N(μ,σ^2/n)になる.

 すでに見てきたように,正規分布の場合は,標本平均の分布が正規分布N(μ,σ^2/n)になること,一様分布の和も漸近正規性をもつことを示すことができましたが,一般の分布についても,和の分布の極限を考えると正規分布で近似されるというのが中心極限定理であり,自然界における正規分布の普遍性を説明する1つの根拠とされています.

 ここでは厳密な証明抜きで中心極限定理を用いることにしますが,中心極限定理が成り立つための条件等については非常によく研究されており,多くの教科書で詳しく述べられていますから,ここでは清水良一「中心極限定理」教育出版を参考書としてあげておきます.

2.加法に関して不変(invariant)

 2つの正規変数の和は正規分布になり,和変数の平均(分散)は個々の平均(分散)の和と等しくなる.

μ=μ1+μ2  (μに関する再生性)

σ^2=σ1^2+σ2^2 (σ^2に関する再生性)

 また,2つの正規変数の差も正規分布になり,

μ=μ1-μ2  (μに関する再生性)

σ^2=σ1^2+σ2^2 (σ^2に関する再生性)

が成り立ちます.独立変数の和に対して,平均値と分散の加法性は成り立っても,差に対しては,確率分布までが保存されるとは限りませんから,これぞ正規分布の最も好ましい性質になっています.なお,一般に,正規分布変数の線形結合Σaxは正規分布N(Σaμ,Σa^2σ^2)になります.

3.正規分布から派生した分布

 正規分布と関連があり,しかも統計的な道具として広く利用される分布に,χ^2分布,t分布,F分布があります.

a)χ^2分布

x〜N(0,1) →x^2〜χ^2(1)

xi〜N(0,1)→Σxi^2〜χ^2(n)

すなわち,確率変数xが標準正規分布N(0,1^2)に従うとき,x^2の分布は自由度1のχ^2分布,また,n個の変数xiがすべてN(0,1^2)に従うならば,Σxi^2は自由度nのχ^2分布になります.

 通信系内部に発生する雑音は正規分布になりますが,その平均パワーの分布がχ^2分布になるのはこのためです.

b)F分布

 F分布はχ^2確率変数の比の分布であり,

y1〜χ^2(m),y2〜χ^2(n)→y1/m/y2/n〜F(m,n)

と表されます.

 このことから,x1,x2〜N(0,1)とするとき,(x1/x2)^2は自由度(1,1)のF分布にしたがうことがわかります.また,これより,その平方根x1/x2はコーシー分布にしたがうことが簡単に計算されます.

c)t分布

x〜N(0,1),y〜χ^2(n)→x/y〜t(n)

すなわち,xがN(0,1),yが自由度nのχ2 分布に従うとき,t=x/√(y/n)は自由度nのt分布に従うことは,t分布の統計的性質として重要です.

 以上より,α%点について,

χ^2(1;α)={u(α/2)}^2

F(1,df;α)={t(df;α/2)}^2

であることが理解されます.なお,F分布はFisherにちなんで,Snedecorにより命名されました.(t分布はStudentにちなんでいる.χ^2分布はK.Pearsonにより命名されている.)

d)商x1/x2はコーシー分布にしたがい,また,積y=x1*x2の確率密度関数は第2種の変形ベッセル関数となります.さらに,積の和と差y=x1*x2±x3*x4はラプラス分布にしたがいます.

e)さらに,exp(-1/2(x1^2+x2^2)),1/2πarctan(x1/x2)は区間(0,1)の一様分布に従うことも導かれます.ここで,極座標変換x1=rsinθ,x2=rcosθするとu1=exp(-r^2/2),u2=θ/2πも区間(0,1)の一様分布に従います.

4.ボックス・ミューラーの正規乱数発生法

 正規乱数を発生させる方法に,ボックス・ミューラー(Box-Muller)法があります.e)よりr^2=-2logu1,θ=2πu2ですから,2個の一様乱数r1,r2から互いに独立に標準正規分布に従う2個の正規乱数z1,z2

z1=(−2lnr1 )^1/2cos(2πr2)

z2=(−2lnr1 )^1/2sin(2πr2)

を作りだすことができます.

これがボックス・ミューラー法ですが,正規乱数発生法としては,中心極限定理を利用する方法も知られています.中心極限定理による正規乱数発生法は,12個の一様乱数から1個の正規乱数が得られる効率のよくない方法であったのに対し,ボックス・ミューラー法はかなり効率がよくなっています.

===================================