■確率分布・各論(その2)

【1】左右対称の連続確率分布(続き)

(2)コーシー分布

f(x)=1/π・β/(β^2+(x−α)^2)  (-∞<x<∞)

 その累積分布関数は

∫f(x)dx=1/π・[arctan(x−α)/β]

f(x)=1/2+1/πarctan(x) (−∞<x<∞)

となります.

平均分散は存在せず.

mode=α

median=α

 任意の点に,垂直軸のまわりを水平に回転できるような銃を固定し,−π/2≦θ≦π/2の範囲の任意に選ばれた角度で固定した壁に向けて発砲するとき,発砲角度が一様分布にしたがえば,銃弾の命中点の分布は上式で表されます.そのため,コーシー分布は,種々の放射線の線スペクトルの強度分布など共鳴現象を表わすのにしばしば用いられていて,原子核物理の分野では,ローレンツ分布とも,ブライト・ウィグナー分布とも呼ばれます.

 コーシー分布は正規分布と同じような山型の分布をして,一見,正規分布と似ていますが,数学的にははなはだ異なった性質を示し,コーシー分布は平均さえもたないのに対し,正規分布はすべての次数の積率をもっているという違いがあります.

 また,正規分布は頂点が丸くて裾の減退が速いのに対し,コーシー分布は頂点が鋭くて分布の両すそが正規分布に比べかなり長く,中心から遠くまで広がっています.すなわち,コーシー分布はいわゆる裾の重い(heavy tailed)分布で,大きい(小さい)値をとる確率がなかなか0に近づかず,累積分布関数より,[α−β,α+β],[α−2β,α+2β],[α−3β,α+3β]の外の値はなんと50%,30%(0.2952),20%(0.2048)も観察されることがわかります.

 一方,正規分布では[μ−σ,μ+σ],[μ−2σ,μ+2σ],[μ−3σ,μ+3σ]の外の値が観測されるのは32.7%,5%(0.0455),0.3%(0.0027)ですから,正規分布はxの絶対値が大になるにつれて指数関数的減衰するのに対し,コーシー分布は代数関数的に減衰する分布関数で,逆にいうと,代数関数的減衰に比較して指数関数的減衰がいかに急減であるかがよくわかります.

(特性)

1.平均や分散をもたない確率分布!

 コーシー分布はt分布(後述)において自由度1としたものであり,平均値は定まらず分散が無限大になる厄介な分布です.なぜなら,対応する積分が発散するからです.したがって,コーシー分布は中央値と4分位偏差(第3四分位数Q3と第1四分位数Q1の差)で特徴づけられます.コーシー分布の分散は発散しますが,4分位偏差のように存在の保証された分布の幅の測度sで置き換えると

s=s1+s2

が成り立ちます(stable distribution).

2.中心極限定理が成立しない分布

 コーシー分布にしたがう確率変数の線形結合Σaxはコーシー分布になります.また,確率変数がコーシー分布に従うとき,その標本分布も再びコーシー布に従うため,何回測定を繰り返したとしても,標本平均値の分散は無限大で標本平均値の精度は少しもよくなりません.

 このように,コーシー分布はいくつかのパラドックスの源泉になっていて,しばしば,たちの悪い分布の代表として用いられます.さらに次のような性質ももっています.

3.正規分布する確率変数同士の商の分布

 F分布はχ^2分布の比の分布となりますが,自由度1のχ^2分布の比の平方根分布は半コーシー分布,したがって,正規分布する確率変数同士の商の分布はコーシー分布になることが示されます.

4.コーシー確率変数の逆数もコーシー分布

α→α/(α2+β2)

β→β/(α2+β2)

5.コーシー乱数発生法

 rを区間(0,1)の一様乱数とするとtan(π(r-1/2))は標準コーシー分布に従います.

【補】コーシー分布の密度曲線は,古くから知られている幾何学曲線(x2y=c2(c-y))と同一で,山形をしています.この曲線は「変曲点をもつ曲線」の誤訳から以降「アグネシの魔女(witch of Agnesi)」と別名でよばれるようになった割合有名な曲線です.witchから迂弛線(うちせん)ともよばれますが,最近はこのような古めかしい呼び方は多分しないと思います.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

(3)t分布

f(x)=Γ((n+1)/2)/(√πnΓ(n/2))(1+x^2/n)^ー(n+1)/2

 自由度nの標準t分布は,上式で表わされます.これを位置=尺度母数モデルに一般化するためには,位置母数αと尺度母数βをつけて,x=(y−α)/βとおいてxからyへの変数変換を行なえば,

f(x)=Γ((n+1)/2)/(√πnΓ(n/2)β)(1+(x−α)^2/β^2/n)^ー(n+1)/2

が得られます.

 この確率密度関数の母平均,母分散は

母平均=α   undefined for n=1

母分散=n/(n−2)β^2     n=3,4,・・・

と計算されます.

μr=0  (n奇数)

μr=n^(r/2)Γ((r+1)/2)Γ((n−r)/2)/(√πΓ(n/2)  (n偶数)

(特性)

1.t分布の統計的意味

 statisticsは統計学と訳されていますが,古典統計学においては文字どおり国家論という意味であって,元来は国状を記述するための方法でした.検定・推定論を中心とした現代統計学の幕開けは,1908年にゴセットがスチューデントという筆名で発表したt分布の発見であるとみなされています(いわゆる精密標本論の始まり).

 それを洗練された形に改良したのがフィッシャーですが,フィッシャーはn個の観測値の標本平均と母平均の差(距離)を不偏標本標準偏差の平方根で割った統計量tの分布をn次元ユークリッド空間を使って導きだし,これらをスチューデントの定理としてまとめました.

 すなわち,未知のパラメータμ,σ^2をもつ正規分布N(μ,σ2)に関して,1.E[u^2]=σ^2

2.標本平均xと標本不偏分散u^2は任意のμ,σ2について独立である.

3.t=(x−μ)/(u/√n)はμ,σ^2に独立な分布(自由度n−1のt分布)をもつ.

2.正規分布を一般化した分布

t分布は,n=1の場合に,

f(x)=1/π・β/(β^2+(x−α)^2)

すなわち,コーシー分布になります.同様にして

f(x)=1/2β√n(1+(x−α)^2/β^2/2)^ー3/2  (n=2)

f(x)=1/2πβ√n(1+(x−α)^2/β^2/3)^-2  (n=3)

f(x)=3/4β√n(1+(x−α)^2/β^2/4)^-5/2 (n=4)

n→∞とするとき,

(1+x^2/n)^ー(n+1)/2→exp(−x^2/2)

また,スターリングの公式より

Γ((n+1)/2)/(√πnΓ(n/2)→1/√2π

が示されます.すなわち,自由度が無限大のt分布は正規分布になりますから,t分布は正規分布を一般化したものと考えることができます.

【補】(1+x/n)^n→exp(x)

 また,t分布は正規分布とカイ2乗分布(ガンマ分布)の密度関数の混合によって導出することができますから,正規分布より裾が重い釣り鐘型分布になります.また,t’=(x−μ)/(u/√n)の分布として導かれるt’分布については前述したごとくです.

3.t分布の物理的意味

 X線,γ線などの電磁波はそれぞれの線スペクトルに固有の幅と分布をもっていて,光の線スペクトルのようなコーシー分布を示すものを分光器で測定したとすると,分光器には固有の分解能があり,それは正規分布で近似できることが多いわけですから,測定したスペクトルの分布はコーシー分布と正規分布を合成したものになります.

 正規分布:f(x)=1/√2πσ・exp(−(x−m)^2/2σ^2)とコーシー分布:g(x)=1/π・α/(α^2+(x−μ)^2)を合成(convolution)した分布の密度関数を求めると,

h(x)=1/πσ∫exp(−t^2/2−αt/σ)cos((μ+m−x)/σ)tdt   (−∞<t<∞)

で表わされます(Viogt関数,証明には特性関数を用いる).この厳密解は積分関数を含んでおり,このままでは実際のスペクトル線の信号解析が困難です.

 正規分布(自由度が無限大のt分布)は頂点が丸くすその減退が速いのに対し,コーシー分布(自由度1のt分布)は頂点が鋭くすそが広く,両者は両極端の形をしています.スベクトル曲線はローレンツ型(コーシー分布)でもガウス型(正規分布)でもなく,両者が混合した中間の形が多くなりますから,苦肉の策として,自由度2か3か4のt分布を使って代用されるのです.t分布は,このような物理的性質から,移動通信の解析などにも用いられています.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

(4)ロジスティック分布

f(x)=exp(-(x-α)/β)/{1+exp(-(x-α)/β)}^2=1/4βsech2{(x-α)/2β}

F(x)=1/{1+exp(-(x-α)/β)} =1/2[1+tanh{(x-α)/2β}]

−∞<x<∞ 

mean=α(mode,median)

variance=β^2π^2/3

 ロジスティック分布は,n個の無作為抽出標本の最大値と最小値の平均(ミッドレンジ:mid-range)のn→∞のときの極限分布として,あるいは最大値と最小値の比の極限分布として得られたもので,極値分布と深く関係しています.極値分布の1種である二重指数分布(ガンベル分布)にしたがう変数の差の分布はロジスティック分布になることも記憶すべきことでしょう.

 しかし,応用的にはロジスティック曲線との関連が重要であって,累積分布関数F(x)がロジスティック曲線になる分布が,ロジスティック分布といえます.

 人口の変化を前もって十分に想定し正しく見積もることは未来予測するために非常に重要な課題です.ロジスティック曲線とは成長曲線の一種で,人口の増加法則の研究から導かれた仮説「人口は等比級数的に増加すると同時に,人口の大きさに比例するような抵抗を受ける」をモデル化したものです.

 1798年,イギリスの経済学者マルサスは「人口論」のなかで人口の増加率は総人口Nに比例するというモデル(dN/dt=k0N:すなわち,人口は指数関数的に増加するN=N0exp(k0t))をたてました.しかし,マルサス・モデルでははじめはその動向が一致するのですが,モデルのままでは人口が無限大に発散してしまい,すぐに実情に合わなくなってしまいます.つまり,このモデルは人口予測にあまり役にたちません.

 実際には人口の過密が起こると食糧問題,エネルギーの供給不足,住宅環境問題などいろいろな抑制要因のため,指数関数的・等比数列的な増加はとうてい起こりえないのです.そこで,人口過密の要因を考慮に入れて,1837年,オランダの数理生物学者フェルフルストは,人口の増加率は人口に比例しかつ人口の上限Bが定まっており,各時点での人口が最大人口に飽和するまでの余裕(B−N)にも比例するという修正モデルを提案しました.

dN/dt=kN(B−N)=kBN−kN^2

 この式が人口増加のロジスティックモデルであり,Nは人口増加,B−Nはそれに歯止めをかける因子です.実際のデータでは,kはkBに比べてかなり小さい数になりますから,Nの値が小さいときは非線形項kN^2はほとんど無視でき,dN/dt=kBNすなわちマルサス・モデルと同一になります.しかし,Nがある値以上になるとNの増加に抑制力が加わり,その効果はN^2に比例して効いてきます.フェルフルストの人口モデルは,換言すれば,人口の大きさに比例する抵抗を受けるモデルです.

 この微分方程式は高次項y2 を含むので非線形現象を表していますが,変数分離型なので簡単に解けて,

y=a/(1+bexp(cx)) (a>0,b>0,c<0)

という解が得られます.

 フェルフルスト・モデルを表わす曲線は,のちに,アメリカの生物学者パールによってロジスティック曲線と名づけられました.2本の漸近線y=a,y=0をもち,最初は指数的に増加し,y=a/2(50%)まで増加しますが,それ以後はしだいに増加率が低下してゆき,x→∞のときy→aに収束します.また,勾配の最大値のところが変曲点で,変曲点に対して点対称のS字型曲線(シグモイドカーブ)を描きます.

 ロジスティック曲線は,その後,生物,社会,経済現象にもフィットすることが実証され,新製品の需要予測や高齢者の死亡率の推定などにしばしば適用されています.また,化学分野では自己触媒反応のモデルになっています.

 これが累積分布関数F(x)であるためにはa=1でなければなりませんから,

F(x)=1/{1+exp(-(x-α)/β)} =1/2[1+tanh{(x-α)/2β}]

実際に微分してみると確率密度関数

f(x)=exp(-(x-α)/β)/{1+exp(-(x-α)/β)}^2=1/4βsech2{(x-α)/2β}

が得られます.

 α=0,β=1の場合が標準ロジスティック分布f(x)=exp(-x)/{1+exp(-x)}^2で,その平均値0,分散はπ2/3となります.ロジスティック分布も裾の重い分布の1つで(−2,2)の外の確率が0.2384,(−3,3)の外の確率が0.0949です.尖度は正規分布が3に対してロジスティック分布が4.2です.

1.ロジット解析への応用

これまで導出過程で見てきたようにロジスティック分布には

f(x)=F(x)[1-F(x)]

x=log[F(x)/{1-F(x)}]

F-1(x)=α+βlog{x/(1-x)}

なる性質があります.ロジットlog{x/(1-x)}が線形になる性質をうまく利用して,2値反応モデルなど質的データの解析では,ロジット解析がしばしば行われます.このように,ロジスティック分布は確率密度関数が正規分布と類似していること,また累積分布関数および分位点関数が明示的に書き表せることなどの数学的な取り扱いやすさから,ロジット解析は,確率分布として正規分布を仮定するプロビット解析よりも多用されています.

2.正規分布の代用として

正規分布もロジスティック分布もベル型曲線を描きますが,正規分布f(x)=1/√2πexp(-x^2/2)の粗い近似式として平均値0,分散1に規格化したロジスティック分布

p(x)=exp(-πx/√3)/{1+exp(-πx/√3)}^2

もしばしば用いられます.しかし,この分布の裾の重さはほぼ自由度8〜9のt分布に相当します.√3ではなく1.7にすると正規近似の精度がよくなります.

p(x)=exp(-πx/1.7)/{1+exp(-πx/1.7)}^2

 なお,自由度νのt分布の平均は0,分散はν/(ν−2)であることから正規近似式:t(ν)〜√ν/(ν−2)uが導き出されます.

 また,ロジスティック分布と関連した分布では

双曲割線分布(hyperbolic second distribution)

f(x)=1/πsechx

mean=0

variance=π^2/4

や対数ロジスティック分布

f(x)=δexp(γ)x^(δ-1)/(1+exp(γ)x^δ)^2

mean=exp(-γ/δ)π/δcosecπ/δ

E[x^2]=exp(-2γ/δ)2π/δcosec2π/δ

なども活躍しています.対数ロジスティック分布は,対数変換y=γ+δlogxしたものが,ロジスティック分布となるもので,本質的にはブール分布

f(x)=ra^r/(x+a)^(r+1) x>0

と同じものです.Burr分布ではr-1次までの積率しか存在しません.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

(5)両側指数分布(ラプラス分布)

f(x)=1/2βexp(-|x-α|/β)

mean=α(mode,medianとも)

variance=2β^2

f(x)=1/2exp(-|x|)

mean=0

variance=2

 ラプラス分布は指数分布の両側版となる分布で,逆にいうとラプラス分布の折り重ね分布(folded distribution:***節)が指数分布です.double exponential distributionという用語は2重指数分布(ガンベル分布)の意味で用いられることが多いのですが,両側指数分布(ラプラス分布)の意味でも用いられますので,しばしば混同されます.両側指数分布をラプラス分布と呼んでおけば間違いないでしょう.

1.同一指数分布する2変数の差の分布

x1,x2がともに尺度母数φの指数分布にしたがうとき,y=x1-x2はラプラス分布f(x)=1/2φexp(-|x|/φ)にしたがいます.すなわち,この分布は同一指数分布からの2変数の差の分布と考えられます.

2.裾の重い分布

ラプラス分布の尖度はβ2=6ですから,この分布も裾の重い分布の1つで(−2,2)の外の確率が0.1353,(−3,3)の外の確率が0.0494です.長い裾をもつほど飛び離れた値をもつ確率は高くなるわけですが,ここで正規分布と分散を1に規格化した対称性分布・・・t分布(自由度5,10),両側指数分布,ロジスティック分布の両側5%点,1%点,0.1%点を比較してみましょう.

5%点    1%点    0.1%点

正規分布  1.96059 2.57527 3.28897

t分布(df=5) 1.98992 3.10464 5.1894

(df=10)1.99354 2.83264 4.09149

両側指数分布 2.1183 3.25635 4.88449

ロジスティック分布 2.01983 2.91835 4.19025

【注】この数値は著者が数表を用いずに,近似計算で求めた値であるから信頼率は95%以下と思われる.

1%点で比べると,正規分布,自由度10のt分布,ロジスティック分布,自由度5のt分布,両側指数分布ときて,規格化できないコーシー分布が最も長い裾をもつことがわかります.

3.ロバスト推定

ラプラス分布は裾の重い誤差分布の1つとして用いられます.誤差の分布に関しては,正規分布に従うことがはじめから決まっているわけではなく,正規分布よりも裾が長い両側指数分布,ロジスティック分布,t分布などを仮定することができます.長い裾をもつほど飛び離れた値をもつ確率は高くなりますから,誤差の分布として,これらの分布を使えば外れ値の影響を受けにくいロバスト推定が可能になります.ロバストとは頑健とか誤差に強いという意味です.

その場合,種々の誤差分布に対応した最尤法が考えられますが,誤差分布が正規分布にしたがう場合,尤度関数を最小にすることは,残差の2乗和を最小とすることに一致します.つまり,正規分布に対応した最尤法が最小2乗法です.それに対して,誤差が両側指数分布にしたがうものとすると,最尤推定は残差の絶対値の和を最小とするものになるという違いがあります.

誤差の分布が正規分布の場合だけではなく,裾の広い非正規分布に関してもパラメータ推定値の誤差分散が十分小さくなるような推定法が望ましいわけで,このような推定法をロバスト推定法といいます.ロバスト推定には大別して,M推定(最尤法に基づくロバスト推定),L推定(順序統計量に基づくロバスト推定),R推定(順位統計量に基づくロバスト推定)がありますが,M推定法の名前は最尤法(maximum likelihood method)から拡張されたということに由来しています.

===================================