■確率分布・各論(その3)

【1】正にゆがんだ連続分布

(1)対数正規分布

 非対称な分布を何らかの変換によって対称にしておく必要がある場合に通常用いられるのは対数変換であり,実際問題としては高値に裾が長い非対称な分布形状を示すデータが得られることはしばしばで,これらは対数変換すると対称化できる場合が多いことが経験的に知られています.

 対数変換したものが正規分布となる分布が対数正規分布で,その確率分布は次式で表現されます.

f(x)=1/√2πσx・exp(−(logx−μ)^2/2σ^2)

0<x<∞

m=exp(μ),ω=exp(σ^2)とおくと

mean=mω1/2

variance=m2ω(ω−1)

mode=m/ω

median=m

 対数正規分布の分布曲線の形状はσ(ジブラ係数とも呼ばれる)によって定められ,σの値が大きくなると分布の幅が広くなり,また,非対称性が強くなります.そのため,対数正規分布は格差や生物の個体差を表わす分布として,よく用いられます.たとえば,収入や貯蓄額の分布は対称ではなく,右に長い裾をもったゆがんだ非対称分布になりますが,このことは数は少なくても並外れて高収入,高額貯蓄の人がいること,低い方に最頻値があり大半の人は平均以下であることを示しています.日本人の平均収入は***円などと白書で報告されますが,中流と思っている人でも平均収入には達せず,かくして庶民感覚と平均値の乖離が発生することになります.

 対数正規分布の適用できるものは驚くほど多く,陸上移動通信では長距離走行中に周囲の高い建物や樹木などによって受信電界が影響を受ける電界変動(shadowing)を記述したり,血行動態を解析する際の色素希釈曲線を近似したりするのに用いられています.

 対数正規分布に対して「実測の結果を比較的よく再現する経験式にすぎず,対数正規分布を用いる根拠はない.」という人もいますが,理論的根拠は乏しくても正規分布より導かれたという特徴が注目され,応用上重要な分布になっています.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

(2)ガンマ分布

f(x)=1/(βΓ(α))・(x/β)^α-1・exp(−x/β)

0≦x<∞

mean=αβ

variance=αβ2

mode=(α-1)β

 ガンマ分布は2個のパラメータα,βを用いて,上式で定義される分布です.αが整数のときのガンマ分布はアーラン分布とも呼ばれます.そして,アーラン分布を自然数以外に拡張して得られる分布がガンマ分布です.

 上式で定義される分布を,正規分布に倣ってG(α,β)と表現しますが,βはスケールの取り方に関係するパラメータ(尺度母数)で,厳密な意味では曲線の形に影響を及ぼすものではなく,単に縦横の座標を伸縮するのと同じ意味をもつにすぎません.

 αのほうは曲線の本質的な形を決定するパラメータ(形状母数)です.ガンマ分布の分布曲線はα≦1のときJ字型曲線となって単調減少の傾向をとります.とくに,α=1のときが指数分布:f(x)=1/β・exp(−x/β)になります.指数分布はガンマ分布の特殊な場合であり,G(1,β)に相当するというわけです.

 また,α>1のとき単峰型曲線となって,αが大きくなるほど幅の広いなだらかな分布で同時に非対称性が少なくなります.このように形状母数αは尺度母数βに比して重要な意義をもっています.

1.指数分布から導き出された分布

 変数xiが指数分布f(x)=1/βexp(-x/β)=G(1,β)にしたがうとき,Σxiはアーラン分布G(n,β)にしたがいます.

 ガンマ分布は非対称で正にゆがんだ分布を表わすものとして,ワイブル分布,対数正規分布とともによく用いられていますが,対数正規分布と異なり,指数分布するデータから理論的に導き出された分布で,必然性の中からうまれたという経緯があります.すなわち,独立な指数確率変数の和の分布というのが,ガンマ分布の最も重要な性質です.

2.αに関する再生性

 変数xiがガンマ分布G(αi,β)にしたがうとき,Σxiはガンマ分布G(Σαi,β)にしたがいます.すなわち,ガンマ分布にしたがう変数の和もガンマ分布になるという性質をもっています.

3.ポアソン過程との関連

 確率過程とは各瞬間での変化の様相が不確定で,その確率だけが与えられているようなプロセスを指します.ポアソン分布はごく稀にしか起こらない現象の確率分布ですが,時間的にポアソン分布にしたがう確率過程がポアソン過程です.ポアソン過程の時間間隔の分布は指数分布に従いますから,アーラン分布は,ポアソン過程でm回事象が起こるまでの時間分布として求められます.

 ガンマ分布はその累積分布関数が不完全ガンマ関数となることから命名されていますが,基本統計量にガンマ関数が出現する分布やガンマ分布から派生する分布は,再生性をもつ寿命分布として利用されているほか,ランダムな故障発生や到着の時間間隔,サービス時間などの解析に用いられ,待ち行列論,通信トラフィック理論,信頼性工学,システム工学などの分野において重要な役割を果たしています.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

(3)χ^2分布

 χ^2分布はガンマ分布の特殊な場合に相当していて,α=n/2,β=2とおいてリパラメトライズ(reparametrization)すると,自由度nのχ^2分布の確率密度関数

f(x)=1/(2^n/2Γ(n/2))・(x)^n/2-1・exp(−x/2)

0≦x<∞

が得られます.

すなわち,G(n/2,2)=χ^2(n)であって,自由度2のχ^2分布は指数分布f(x)=1/2exp(-x/2)となります.また,nが大きくなるとχ^2分布は平均n,分散2nの正規分布に近づきます.

mean=n

variance=2n

mode=n-2(n>2のとき)

1.χ^2分布は標準正規変数の2乗和の分布である

χ^2分布の重要性は,標準正規分布にしたがう変数xi(i=1〜n)の2乗和χ^2=Σxi^2が自由度nのχ^2分布になることにあります.

xi〜N(0,1)   Σx1^2=χ^2(n)

χ^2分布の確率密度関数はしばしば

f(χ2)=1/(2n/2Γ(n/2))・(χ2)^n/2-1・exp(−χ2/2)

とも書かれます.χ^2という記号はK.ピアソンによって導入されたもので,2乗の和であることを示すために2乗の指数が肩についていますが,1個の通常の変数と考えてよいものです.

2.標本分散と母分散の比はχ^2分布にしたがう

測定値が正規分布にしたがうとき,標本分散と母分散の比は自由度n−1のχ^2分布にしたがいます.

ns^2/σ^2=(n-1)u^2/σ^2〜χ^2(n-1)

3.χ^2分布に従う変数の商の分布はF分布

x1〜χ^2(m),x2〜χ^2(n)のとき,x1/m/x2/n〜F(m,n)

4.nに関する再生性

ガンマ分布と同様,χ^2分布についても再生性「x1とx2が独立でそれぞれ自由度n1,n2のχ2分布にしたがうとき,x1+x2は自由度n1+n2のχ2分布に従う」が成り立ちます.

 以上の性質により,χ^2分布は,誤差論において正規分布に次いで重要な分布となっています.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

(4)χ分布

 χ^2分布は距離の2乗の和の分布と考えることができますが,そもそも,距離の2乗の和にとくに具体的な意味があるようには思えません.むしろ,2乗を取り去ったほうが問題としては自然です.そこで,ここではχ^2分布の平方根分布(χ分布)について考えてみます.

 自由度nのχ^2分布の確率密度関数式

f(x)=1/(2n/2Γ(n/2))・(x)n/2-1・exp(−x/2)

0≦x<∞

において,x=y^2と変数変換すると,dx=2ydyより,χ分布の確率密度関数

p(x)=1/(2n/2-1Γ(n/2))・(x)n-1・exp(−x^2/2)

0≦x<∞

が得られます.

mean=Γ((n+1)/2)/Γ(n/2)

variance=Γ(n/2+1)/Γ(n/2)-{Γ((n+1)/2)/Γ(n/2)}^2

mode=√(n-1)(n>1)

 とくに,自由度1のχ分布は半正規分布

  f(x)=1/σ√(2/π)exp(-x^2/2σ^2)

であり,この分布は期待値が0の正規分布f(x)=1/σ√(2π)exp(-x^2/2σ2)をx=0で折り返した分布になっています.

 また,自由度2のχ分布はレイリー分布:f(x)=x/σ^2exp(-x^2/2σ2),自由度3のχ分布はマクスウェル分布:f(x)=2^(3/2)/σ^3x^2exp(-x^2/2σ2)

と命名されています.

 χ^2分布は主として統計分野で用いられていますが,χ分布,とりわけ,レイリー分布は英国のレイリー卿が音響工学との関連でこの分布を発見したことに由来し,マクスウェル分布は気体分子の速度分布と関係した物理学上の重要な分布関数になっています.

(特性)

1.標的問題との関連

 周辺分布がともに平均0,分散σ2の正規分布となる2次元正規分布

p(x,y)dxdy=1/2πσ2・exp(−(x2+y2)/2σ^2)dxdy

において,x=rcosθ,y=rsinθと極座標変換して,

ヤコビアン∂(x,y)/∂(r,θ)はrですから

p(x,y)dxdy=1/σ2rexp(-r2/2σ2)dr*1/2πdθ

よって,rとr+drの間に落ちる確率は1/σ2rexp(-r2/2σ2)dr

 こうしてレイリー分布が得られますが,言い換えれば,x1,x2が正規分布N(0,1)にしたがい,独立のとき(x12+x22)1/2はレイリー分布にしたがうことになります.レイリー分布はミサイルなどが目標からrだけ離れる分布と考えることができます.なお,振幅rの確率分布はレイリー分布となりましたが,一方,位相θの分布はp(θ)=1/2πすなわち一様分布となります.

 レイリー分布はワイブル分布の1種でもあり,また,自由度2のχ^2分布は指数分布ですから,レイリー分布は指数分布にしたがう確率変数の平方根の分布と理解することもできます.応用面では,2次元の標的問題(ミサイルなどの目標地点と実際の着弾地点の距離分布)に適用されるほかに,通信工学分野(電気回路の雑音の特定の周波数について,振幅rと位相θとの組合せはレイリー分布に従う)など極めて重要な応用領域をもっていてます.

 また,ポアソン過程で生成された個々の点の最近接点(nearest neighbor)との距離の分布として,あるいはハザードレートを計算すると,h(x)=x/σ^2よりlinearly IFRの性質を持つ寿命分布のモデルとして利用されています.

 同様のことを3次元で行うと,3次元空間の直角座標(x,y,z)←→球面座標(r,θ,φ)の座標変換は

x=rsinθcosφ,y=rsinθsinφ,z=rcosφ

ヤコビアン∂(x,y,z)/∂(r,θ,φ)=r2sinθ

ここで,方向を表すベクトルを球面座標でs=(θ,φ)とおき,ds=sinθdθdφ,dxdydz=r^2drdsのような変換を行えば,3次元正規分布:p(x,y,z)dxdydz=sqr(2/π)σ3exp{-(x2+y2+z2)/2σ^2)r2dr*1/4πdsに変換され,r2=x2+y2+z2よりマクスウェル分布が得られます.また,sは球面上で確率密度1/4πの一様分布をすることも理解されます.

 マクスウェル,レイリーの後,ミラーが多次元正規分布での原点からのユークリッド距離の確率分布として一般的なχ分布を導いています.ミラーにならって,レイリー分布・マクスウェル分布を導いてみましょう.

 n次多次元正規分布は

p(x1,x2,x3,・・・,xn)=1/(2π)n/2σnexp{-(x12+x2+・・・+xn2)/2σ^2)で与えられます.多次元正規分布の場合,低次元の場合とは対照的に,密度の裾にあたる領域に大部分のデータが存在することになります.また,多次元ユークリッド空間の点(x1,x2,x3,・・・,xn)は

r>0,0≦θ1,θ2,・・・,θn-2≦π,0≦θn-1≦2πを満たすr,θ1,θ2,・・・,θn-1によって,

x1=rcosθ1

x2=rsinθ1cosθ2

x3=rsinθ1sinθ2cosθ3

・・・・・・・・・・・・・・・・・・・

xn-1=rsinθ1sinθ2・・・sinθn-2cosθn-1

xn=rsinθ1sinθ2・・・sinθn-2sinθn-1

と表すことができる(ただし,n=2のときは,周知のとおり,x1=rcosθ1,x2=rsinθ1とする)

(r,θ1,θ2,・・・,θn-1)がn次元極座標である.

そのときヤコビアンD(x1,・・・,xn)/D(r,θ1,・・・,θn-1)は

r^(n-1)sin^(n-2)θ1sin^(n-3)θ2・・・sin^2θn-3sinθn-2

となる.

 同様にして

ds=sin^(n-2)θ1・・・sin^2θn-3sinθn-2dθ1dθ2・・・dθn-1

dx1dx2・・・dxn=r^(n-1)drds

ここで,n次元単位超球の表面積をnVnで表すと

p(x1,x2,x3,・・・,xn)dx1dx2・・・dxn=nVn/(2π)n/2σnexp{-(r2)/2σ^2)r^(n-1)dr1/nVnds

Vn=π^(n/2)/Γ(n/2+1)

より

p(x1,x2,x3,・・・,xn)dx1dx2・・・dxn=1/(2^(n/2-1)Γ(n/2))σnexp{-(r2)/2σ^2)r^(n-1)dr*Γ(n/2)/(2*π^(n/2))ds

が得られる.

 1/(2^(n/2-1)Γ(n/2))σnexp{-(r2)/2σ^2)r^(n-1)はχ分布の密度関数,(2*π^(n/2))/Γ(n/2)はn次元単位超球の表面積である.

 このような理由から,近年,χ分布は一般化されたレイリー分布(generalized Rayleigh distribution)として論文にも引用されることが多くなっています.とくに,χ分布は電気通信分野で広い応用範囲を有して,その分野ではm分布とも呼ばれています.

2.ボックス・ミューラーの正規乱数発生法

 ボックス・ミューラー法では,2個の一様乱数r1,r2から互いに独立に標準正規分布に従う2個の正規乱数z1,z2

z1=(−2lnr1 )^1/2cos(2πr2)

z2=(−2lnr1 )^1/2sin(2πr2)

を作りだします.

 z1,z2が正規分布N(0,1)にしたがい,独立のとき(z12+z22)1/2はレイリー分布にしたがいます.したがって,レイリー乱数を発生させることができると正規乱数に変換することができます.後述するようにrを一様乱数とすると(-2lnr)は平均値2の指数分布,従って,(-2lnr)^(1/2)はレイリー乱数,また,2πr2は(0,2π)の一様乱数になりますから,ボックス・ミューラー(Box-Muller)法は,標的問題の解であるレイリー分布を応用していると考えることもできます.

【補】マクスウェルとレイリー

 キャベンディッシュは既知の質量をもつ2つの物体間に働く万有引力を初めて実測した人物として人々に記憶されていますが,彼の一族による基金の調達により,英国ケンブリッジにキャベンディッシュ研究所が設立されました.この研究所は物理学の研究および教育機関であり,物理学の近代的大発展はこの研究所と切り離すことのできない関係にあります.

 マクスウェル,レイリーはともに所長を努めていますが,以後,J.J.トムソン,ラザフォード,ブラッグなどそうそうたる面々がキャベンディッシュ研究所の指導を引き継いでいます.この有名な研究所はその後もこの分野で多くのノーベル賞受賞者を育み,物理学の中心的な役割を担って,原子核物理学における世界の中心的な存在となっていったのですが,ブラッグ卿はこの研究所の所長に就任したとき,過去の栄光にとらわれることなかれ,流行を追うな等々,刮目に値する5項目の注意事項を並べたとされています.

 マックスウェルの最大の功績はさまざまな電気的・磁気的現象を表すことのできる簡単な方程式を見いだし,電気と磁気がそれぞれ単独では存在できないことを明らかにしたことですが,光にも興味をもち,光の3原色を青・緑・赤としこれらを適当に混合して任意の色が得られるとしています.この原理は今日,カラーテレビ,カラー印刷等で応用されているので,ご存知の方も多かろうと思います.

 また,レイリー卿(本名ウィリアム・ストラット)はアルゴンの発見により,1904年にはノーベル物理学賞を受けていますが,非常に多彩な研究経歴の持ち主で,物理学の多くの領域で才能をふるったことで知られています.音響工学や光学にも多くの業績を残していますが,それ以外では,たとえば,水面上には油の単分子膜が存在すること,油の分子の直径は約1nmであることを推察しています.19世紀の終わり頃,分子はまだ仮説的な存在であって,いわんや,分子の構造や大きさなどを実験的に測定することは不可能でしたから,大変な慧眼であったというわけです.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

(5)非心χ^2分布と非心χ分布

期待値が0でない正規変数の2乗の和の分布は非心χ^2分布にしたがい,その確率密度関数は

f(x)=exp(-(δ+x)/2)1/2(x/δ)^((n-2)/4)I(n-2)/2(√δx)  x≧0

で表されます.I()は,第1種の変形ベッセル関数です.χ^2分布同様,非心χ^2分布も再生性を有しています.

xi〜χ^2(ni,δi) Σxi〜χ^2(Σni,Σδi)

 非心χ^2分布はχ^2検定の検出力(power)を調べるために導入されたものですが,統計以外では,パルスレーダを用いた目標物の検出などに応用されていて,その分野では非心パラメータδは信号雑音比(SN比)と解釈されています.

 非心χ^2分布の平方根分布が非心χ分布で,その確率密度関数は

f(x)=1/σ2exp(-μ2/σ2)1/μ^(n/2-1)(x)^(n/2)exp(-x2/σ2)I(n/2-1)(√μx/σ2)  x≧0

です.

 この分布の積率は超幾何関数で表現されます.

mean=√2*σexp(-μ2/2σ2)Γ((n+1)/2)/Γ(n/2)1F1((n+1)/2,n/2,μ2/2σ2)

variance=nσ2exp(-μ2/2σ2)1F1(n/2+1,n/2,μ2/2σ2)

 χ分布を拡張する方向としては,ひとつには自由度を増すこと,もうひとつは非心パラメータをつけることが考えられます.χ分布の自由度を増すと,半正規分布→レイリー分布→マクスウェル分布→・・・となりますが,非心χ分布の自由度を増すと,折り重ね正規分布→ライス分布→・・・が得られます.非心χ分布において,自由度1の場合が折り重ねられた正規分布(folded normal distribution)で,期待値が0でない正規分布をy軸(x=0)で折り返して得られた分布になっています.また,自由度2の非心χ分布はライス分布です.

  f(x)=x/σ^2exp(-(x^2+μ2)/2σ2)I0(μx/σ2)

ライス分布においてμ=0ならばレイリー分布に一致します.また,μ→∞のときの極限は正規分布になります.

 通信では電波が互いに干渉しあって,うねりのような強弱がついて非常に聴取しづらい現象が起こります.受信点では様々な伝搬経路を通ってきた多数の電波が合成されるからであり,この干渉をフェージング(fading)といいます.地表波と空間波の干渉を近距離フェージング,また,経路の異なる空間波どうしの干渉によるものを遠距離フェージングといいます.

 フェージングはその強度が等しいとき最も激しく起こりますが,合成された電波の位相ならびに振幅が不規則に変化するので,そのデータはランダムな性格を有し,明確な数式で記述されるよりは確率的記述と統計的平均値で表されなければなりません.

 その際必要とされるのがライス分布です.ライス分布はマーカムのQ関数と関連していて,電気通信分野ではn分布の名で通っています.

【補】日本人の名前のついた確率分布

 ライス分布は第2次大戦中,米国ベル研のライスと本邦の仲上稔教授によって独立に研究されたものですが,とくに,仲上氏のフェージングの研究は戦時中のおそらく実験設備も十分でない環境にもかかわらず,先進国米国の研究に先立つオリジナルな成果として発表されています.しかし,originally made in Japan であるにもかかわらず,本邦ではその重要性が認められませんでした.ライス分布と名づけられていますが,この機会に仲上・ライス分布として紹介したいと考えています.

 日本人には創造性がないとよくいわれるが,そんなことはない.八木アンテナ(テレビのアンテナ),岡部マグネトロン(電子レンジ)などは,実験設備も十分でない環境にもかかわらず,先進国の研究に先だってなされたオリジナルな成果の例である.しかし,これらの世界的発明が日本人の手によってなされたということ,そしてこれらの発明品によって毎日受けている恩恵に対しても,日本人の多くが忘れている.あるいは初めから教えられなかったのかもしれないが,不思議なことに,八木アンテナや岡部マグネトロンは国内よりも海外でその能力が高く評価され,実用化に近づいてからあわてて逆輸入されたという経緯をもっている.

 これらの発明が国内で認められなかったという事情は,日本人社会がその仲間の独創性を認めないという性癖の表れではないだろうか? すなわち,お互いの足の引っ張り合いをし,でる杭は打つ.人の欠点を指摘してよいところは決して褒めない.その結果,公平正当な評価ができない.−−−日本人がパイオニアになるために欠けているのは,創造性ではなく,他人の突出を許さないという狭小な精神構造(島国根性)なのだと私は思う.

===================================