コーシー分布といえば,通常,連続コーシー分布
f(x)=1/π・1/(1+x^2) (−∞<x<∞)
のことを指しますが,今回のコラムではその離散化分布
f(n)=C・1/(1+n^2) (−∞<n<∞)
を扱ってみたいと思います.
===================================
【1】コーシー分布
コーシー分布の密度関数は
f(x)=1/π・β/(β^2+(x−α)^2) (−∞<x<∞)
その累積分布関数は
∫f(x)dx=1/π・[arctan(x−α)/β]
=1/2+1/π・arctan(x−α)/β
となります.
平均,分散は存在しませんが,
mode=α
median=α
です.
任意の点に垂直軸のまわりを水平に回転できるような銃を固定し,−π/2≦θ≦π/2の範囲の任意に選ばれた角度で固定した壁に向けて発砲するとき,発砲角度が一様分布にしたがえば,銃弾の命中点の分布は上式で表されます.
そのため,コーシー分布は種々の放射線の線スペクトルの強度分布など共鳴現象を表わすのにしばしば用いられていて,原子核物理の分野ではローレンツ分布とも,ブライト・ウィグナー分布とも呼ばれます.
コーシー分布は正規分布と同じような山型の分布をして,一見,正規分布と似ていますが,数学的にははなはだ異なった性質を示し,コーシー分布は平均さえもたないのに対し,正規分布はすべての次数の積率をもっているという違いがあります.
また,正規分布は頂点が丸くて裾の減退が速いのに対し,コーシー分布は頂点が鋭くて分布の両すそが正規分布に比べかなり長く,中心から遠くまで広がっています.すなわち,コーシー分布はいわゆる裾の重い(heavy tailed)分布で,大きい(小さい)値をとる確率がなかなか0に近づかず,累積分布関数より[α−β,α+β],[α−2β,α+2β],[α−3β,α+3β]の外の値はなんと50%,30%(0.2952),20%(0.2048)も観察されることがわかります.
一方,正規分布では[μ−σ,μ+σ],[μ−2σ,μ+2σ],[μ−3σ,μ+3σ]の外の値が観測されるのは32.7%,5%(0.0455),0.3%(0.0027)ですから,正規分布はxの絶対値が大になるにつれて指数関数的減衰するのに対し,コーシー分布は代数関数的に減衰する分布関数で,逆にいうと,代数関数的減衰に比較して指数関数的減衰がいかに急減であるかがよくわかります.
[1]平均や分散をもたない確率分布!
コーシー分布はt分布において自由度1としたものであり,平均値は定まらず分散が無限大になる厄介な分布です.なぜなら,対応する積分が発散するからです.したがって,コーシー分布は中央値と4分位偏差(第3四分位数Q3と第1四分位数Q1の差)で特徴づけられます.コーシー分布の分散は発散しますが,4分位偏差のように存在の保証された分布の幅の測度sで置き換えると
s=s1+s2
が成り立ちます(stable distribution).
[2]中心極限定理が成立しない分布
コーシー分布にしたがう確率変数の線形結合Σaxはコーシー分布になります.また,確率変数がコーシー分布に従うとき,その標本分布も再びコーシー布に従うため,何回測定を繰り返したとしても,標本平均値の分散は無限大で標本平均値の精度は少しもよくなりません.
このように,コーシー分布はいくつかのパラドックスの源泉になっていて,しばしば,たちの悪い分布の代表として用いられます.さらに次のような性質ももっています.
[3]正規分布する確率変数同士の商の分布
F分布はχ^2分布の比の分布となりますが,自由度1のχ^2分布の比の平方根分布は半コーシー分布,したがって,正規分布する確率変数同士の商の分布はコーシー分布になることが示されます.
[4]コーシー確率変数の逆数もコーシー分布
α→α/(α^2+β^2)
β→β/(α^2+β^2)
[補]コーシー分布の密度曲線は,古くから知られている幾何学曲線(x^2y=c^2(c-y))と同一で,山形をしています.この曲線は「変曲点をもつ曲線」の誤訳から以降「アグネシの魔女(witch of Agnesi)」と別名でよばれるようになった割合有名な曲線です.witchから迂弛線(うちせん)ともよばれますが,最近はこのような古めかしい呼び方は多分しないと思います.
===================================
【2】ロジスティック分布
f(x)=exp(-(x-α)/β)/{1+exp(-(x-α)/β)}^2
=1/4β[sech{(x-α)/2β}]^2
F(x)=1/{1+exp(-(x-α)/β)}
=1/2[1+tanh{(x-α)/2β}]
mean=α (mode,medianとも)
variance=β^2π^2/3
ロジスティック分布は,n個の無作為抽出標本の最大値と最小値の平均(ミッドレンジ:mid-range)のn→∞のときの極限分布として,あるいは最大値と最小値の比の極限分布として得られたもので,極値分布と深く関係しています.極値分布の1種である二重指数分布(ガンベル分布)にしたがう変数の差の分布はロジスティック分布になることも記憶すべきことでしょう.
しかし,応用的にはロジスティック曲線との関連が重要であって,累積分布関数F(x)がロジスティック曲線になる分布がロジスティック分布といえます.
人口の変化を前もって十分に想定し正しく見積もることは未来予測するために非常に重要な課題です.ロジスティック曲線とは成長曲線の一種で,人口の増加法則の研究から導かれた仮説「人口は等比級数的に増加すると同時に,人口の大きさに比例するような抵抗を受ける」をモデル化したものです.
1798年,イギリスの経済学者マルサスは「人口論」のなかで人口の増加率は総人口Nに比例するというモデル(dN/dt=k0N:すなわち,人口は指数関数的に増加するN=N0exp(k0t))をたてました.しかし,マルサス・モデルでははじめはその動向が一致するのですが,モデルのままでは人口が無限大に発散してしまい,すぐに実情に合わなくなってしまいます.つまり,このモデルは人口予測にあまり役にたちません.
実際には人口の過密が起こると食糧問題,エネルギーの供給不足,住宅環境問題などいろいろな抑制要因のため,指数関数的・等比数列的な増加はとうてい起こりえないのです.そこで,人口過密の要因を考慮に入れて,1837年,オランダの数理生物学者フェルフルストは,人口の増加率は人口に比例しかつ人口の上限Bが定まっており,各時点での人口が最大人口に飽和するまでの余裕(B−N)にも比例するという修正モデルを提案しました.
dN/dt=kN(B−N)=kBN−kN^2
この式が人口増加のロジスティックモデルであり,Nは人口増加,B−Nはそれに歯止めをかける因子です.
実際のデータでは,kはkBに比べてかなり小さい数になりますから,Nの値が小さいときは非線形項kN^2はほとんど無視でき,dN/dt=kBNすなわちマルサス・モデルと同一になります.しかし,Nがある値以上になるとNの増加に抑制力が加わり,その効果はN^2に比例して効いてきます.フェルフルストの人口モデルは,換言すれば,人口の大きさに比例する抵抗を受けるモデルです.
この微分方程式は高次項y^2を含むので非線形現象を表していますが,変数分離型なので簡単に解けて,
y=a/(1+bexp(cx)) (a>0,b>0,c<0)
という解が得られます.
フェルフルスト・モデルを表わす曲線は,のちに,アメリカの生物学者パールによってロジスティック曲線と名づけられました.2本の漸近線y=a,y=0をもち,最初は指数的に増加し,y=a/2(50%)まで増加しますが,それ以後はしだいに増加率が低下してゆき,x→∞のときy→aに収束します.また,勾配の最大値のところが変曲点で,変曲点に対して点対称のS字型曲線(シグモイドカーブ)を描きます.
ロジスティック曲線は,その後,生物,社会,経済現象にもフィットすることが実証され,新製品の需要予測や高齢者の死亡率の推定などにしばしば適用されています.また,化学分野では自己触媒反応のモデルになっています.
これが累積分布関数F(x)であるためにはa=1でなければなりませんから,
F(x)=1/{1+exp(-(x-α)/β)}
=1/2[1+tanh{(x-α)/2β}]
実際に微分してみると確率密度関数
f(x)=exp(-(x-α)/β)/{1+exp(-(x-α)/β)}^2
=1/4β[sech{(x-α)/2β}]^2
が得られます.
α=0,β=1の場合が標準ロジスティック分布
f(x)=exp(-x)/{1+exp(-x)}^2
でその平均値0,分散はπ^2/3となります.ロジスティック分布も裾の重い分布の1つで(−2,2)の外の確率が0.2384,(−3,3)の外の確率が0.0949です.尖度は正規分布が3に対してロジスティック分布が4.2です.
[1]ロジット解析への応用
これまで導出過程で見てきたようにロジスティック分布には
f(x)=F(x)[1-F(x)]
x=log[F(x)/{1-F(x)}]
F^-1(x)=α+βlog{x/(1-x)}
なる性質があります.ロジットlog{x/(1-x)}が線形になる性質をうまく利用して,2値反応モデルなど質的データの解析ではロジット解析がしばしば行われます.このように,ロジスティック分布は確率密度関数が正規分布と類似していること,また累積分布関数および分位点関数が明示的に書き表せることなどの数学的な取り扱いやすさから,ロジット解析は確率分布として正規分布を仮定するプロビット解析よりも多用されています.
[2]正規分布の代用として
正規分布もロジスティック分布もベル型曲線を描きますが,正規分布
f(x)=1/√2πexp(−x^2/2)
の粗い近似式として平均値0,分散1に規格化したロジスティック分布
f(x)=exp(-πx/√3)/{1+exp(-πx/√3)}^2
もしばしば用いられます.しかし,この分布の裾の重さはほぼ自由度8〜9のt分布に相当します.√3ではなく1.7にすると正規近似の精度がよくなります.
f(x)=exp(-πx/1.7)/{1+exp(-πx/1.7)}^2
===================================
【3】離散コーシー分布
これまでコーシー分布とロジスティック分布を取り上げましたが,どちらも裾の重い分布で,前者の累積分布関数は逆正接関数,後者の累積分布関数は双曲線正接関数で表されるという違いを示したかったからです.
この節では,離散コーシー分布
f(x)=C・1/(1+n^2) (−∞<n<∞)
について考えてみますが,
Σ(-∞,∞)1/(1+n^2)
=π(1+exp(−2π))/(1−exp(−2π))
=π/tanh(π)
より,
C=tanh(π)/π
となります.すなわち,連続コーシー分布の1/πがtanh(π)/πに変わった形をしているというわけです.
Σ(-∞,∞)1/(1+n^2)=π/tanh(π)
や
Σ(-∞,∞)1/(n+α)^2=π^2/(sin(πa))^2
α=1/2→ Σ(-∞,∞)1/(n+1/2)^2=π^2=6ζ(2)
はパーセバルの等式の応用として得られる公式で,とくに
Σ(-∞,∞)1/(1+n^2)=π/tanh(π)
Σ(-∞,∞)(−1)^n/(1+n^2)=π/sinh(π)
は,ゼータ関数の値を直接表すものではないもののゼータの香りが漂う美しい式と考えられています.
この結果をさらに一般化すると
Σ(-∞,∞)1/((α/2π)^2+n^2)=π(2π/α)/tanh(α/2)
α=2π→Σ(-∞,∞)1/(1+n^2)=π/tanh(π)
α=π→ Σ(-∞,∞)1/(1/4+n^2)=2π/tanh(π/2)
を得ることができます.
見方によっては逆正接関数と双曲線正接関数の間の変換式になっているというわけです.ゼータ関数の話が出てきたついでに・・・
[補1]ゼータ関数ζ(s)=Σ1/n^sについて,ζ(1)は発散し,オイラーはζ(2)=π^2/6であることを証明した.すべての偶数sに対しζ(s)の値は無理数であるが,アペリは1979年にζ(3)が無理数であることを証明した.その後,2000年にリボールが無限個の奇数sに対しζ(s)が無理数であることを証明した.2001年にリボールはこの結果を精密化し,ζ(5)からζ(21)までの奇数sのうち少なくとも1つのsについて無理数であることを証明した.同年,ズディリンはこの範囲をζ(5)からζ(11)までに狭めることに成功した.
[補2]ワイルスがフェルマー予想を証明したときのほどの興奮はなく解かれた予想もある.たとえば,カタラン予想がそうである.カタラン予想の主張は
x^p−y^q=1
の整数解が(x,y,p,q)=(3,2,2,3)だけであるということ,すなわち,8と9だけが唯一連続するベキ乗数であるということである.
ベルゲンは1320年頃,
3^p−2^q=1
ならば(p,q)=(2,3)であることを証明した.1734年,オイラーは,
x^2−y^3=1
ならば(x,y)=(3,2)であることを示した.オイラー以後,カタラン予想の一般的な証明は多くの数学者たちの挑戦を退けてきたが,2002年,ミハイレスクがすべてを解決した.
===================================