■コーシー分布の離散化(その2)

 分布の中心位置を表す代表的な特性値が母平均μであり,

  μ=∫(-∞,∞)xf(x)dx

と計算されます.一般に関数f(x)の物理的重心は

  ∫(-∞,∞)xf(x)dx/∫(-∞,∞)f(x)dx

となりますが,確率密度関数f(x)の場合,この分母は1ですから,母平均μは確率分布の物理的重心に相当します.重心では,

  ∫(-∞,μ)xf(x)dx=∫(μ,∞)xf(x)dxが成り立ちます.

すなわち,時計回り,反時計間回りの回転力の釣り合うところが重心になり,天秤棒が平衡を保つ点が母平均というわけです.

 一方,確率分布の広がりの表す特性値の1つが母分散μ2であり,

  μ2=∫(-∞,∞)(x-μ)^2f(x)dx

で計算されます.母分散μ2はしばしばμ2=σ^2と書き表され,母分散の平方根σ=√σ^2は母標準偏差と呼ばれます.母分散は力学との相関でいうと慣性モーメントに対応していて,慣性モーメントが大きいほどまわりにくいが,いったん回りだすととまりにくくなることに対応しています.

 また,平均値まわりの分散は最小であることは簡単に示すことができます.

  ∫(-∞,∞)(x-μ)^2f(x)dx<=∫(-∞,∞)(x-m)^2f(x)dx

すなわち,平均値はそのまわりの分散が最小な点として特徴づけられ,このことから回転運動では重心を中心として回転することが理解されます.

 正規分布:N(μ,σ^2)の式

  f(x)=1/√2πσexp{-(x-μ)^2/2σ^2}

では

  ∫(-∞,∞)xf(x)dx=μ,∫(-∞,∞)(x-μ)^2f(x)dx=σ^2

になりますから,位置母数μ,尺度母数σはそれぞれ正規分布の母平均と母標準偏差の意味をもっていることがわかります.

===================================

【1】平均・分散のない分布

 トリッキーに思われるかもしれませんが,母平均や母分散は常に存在するとは限りません.たとえば,コーシー分布

  f(x)=1/π(1+x^2) (-∞<x<∞)

を取り上げてみましょう.この関数は∫f(x)dx=1/π[arctan(x)]=1ですから確かに確率分布です.しかし,この確率分布は偶関数だから平均は0であると単純に考えてはいけません.0は中央値ではあるのですが,この分布は平均をもたないのです.

 実際,∫xf(x)dxのリーマン積分は1/π・1/2log(1+x2)であり,積分∫xf(x)dxは不定形∞−∞となるから定義されません.平均値が定義されないならば,もちろん分散も定義されないということになります.

 コーシー確率変数が平均値0をもつという命題は,確率論の観点からするとコーシー分布に対しても中心極限定理が成立することになり,正しくないだけでなく危険でもあります.繰り返しになりますが,重要なことですのでもう少し考察してみましょう.

 コーシー分布では,グラフの対称性からその平均値が0であると定義するのは自然と思えます.実際,対称性を利用して有限区間を無限区間まで拡張して考えると,その値は0となります.

  lim(a→∞)∫(-a,a)xf(x)dx=0

このことから,いかなる平均値ももたないと主張することのほうが大袈裟だと思われるかもしれません.しかし,リーマン積分では,a,bを独立に無限大としたときの極限値

  lim(a→-∞,b→∞)∫(a,b)xf(x)dx

が収束することを要請しているのであって,この値は不定形∞−∞となるから発散すなわち平均は存在しないと考えるのです.

 コーシー分布以外の確率分布では,レヴィ分布(ブラウンノイズ関数)

  f(x)=1/√(2π)x^(-3/2)exp(-1/2x)

も平均値をもたない分布として知られています.

 また,離散分布でも平均値の存在しない確率分布があり,たとえば,

  p(x)=6/π^2x^2 (x=1,2,3,・・・)

の平均値は

  6/π^2(1/1+1/2+1/3+・・・)

すなわち,調和級数となるため,無限大に発散してしまいます.

 なお,離散型,連続型以外の特異型分布関数もあり,たとえば,カントル階段関数は特異型分布関数の1例です.特異分布に対してはルベーグ積分の概念が必要になることもあります.実用上用いられる多くの密度関数では,ルベーグ積分とリーマン積分は一致します.したがって,その種の議論を必要としないときはさしあたってリーマン積分で十分であろうと思われますが,コーシー分布やレヴィ分布に対してはルベーグ積分であってもうまくいかないことを申し添えておきます.

===================================

【2】確率変数の和・差の分布

(例題)正規分布の積率母関数:M(t)=exp(μt+σ^2t^2/2)より,μ1,μ2を求めよ.

  M'(t)=(μ+σ^2t)exp(μt+σ^2t^2/2)より E[x]=M'(0)=μ

  M"(t)=(σ^2+(μ+σ^2t)^2)exp(μt+σ^2t^2/2)より E[x^2]=M"(0)=σ^2+μ^2

したがって,μ1=μ,μ2=σ^2

 積率母関数には,和の分布の積率母関数は積率母関数の積で表されるという重要な性質があります.すなわち,x1,x2,...,xnが独立で,それぞれの積率母関数をMx1(t),Mx2(t),・・・,Mxn(t)とするとy=x1+x2+・・・+xnの積率母関数My(t)はMy(t)=ΠMxi(t)で表されるというものです.とくに,x1,x2,・・・,xnの積率母関数が同じ積率母関数Mx(t)をもつとき,My(t)=[Mx(t)]^nとなります.

 正規分布の和の分布について考えてみましょう.xがN(μx,σx^2)に,YがN(μy,σy^2)にしたがい,両者が独立であればx+yの積率母関数は

  Mx+y(t)=Mx(t)*My(t)=exp(μxt+σx^2t^2/2)exp(μyt+σy^2t^2/2)=exp((μx+μy)t+(σx^2+σy^2)t^2/2)

これはN(μx+μy,σx^2+σy^2)の積率母関数にほかなりません.したがって,正規分布の和の分布はまた正規分布となります.これを正規分布の再生性といいます.ポアソン分布や負の2項分布,コーシー分布やガンマ分布も再生性を有しています.

 一方,差の分布の積率母関数は,Mx-y(t)=Mx(t)*My(-t)で表されます.例題と同様に,正規分布の差の分布は

  Mx-y(t)=Mx(t)*My(-t)=exp(μxt+σx^2t^2/2)exp(-μyt+σy^2t^2/2)=exp((μx-μy)t+(σx^2+σy^2)t^2/2),すなわち,N(μx-μy,σx^2+σy^2)の正規分布になることを示すことができます.ところが,ポアソン分布の差の分布はポアソン分布にはならず,ベッセル関数を用いて表されます.

 話は少し脱線しますが,2つの正規変数の和の分布は別の正規分布に従います.これを正規分布は加法に関して不変(invariant)であるといいます.このとき,和変数の分散σ^2は個々の変数の分散σ1^2とσ2^2の和と等しくなります.すなわち,

  σ^2=σ1^2+σ2^2

です.加算は2乗の世界(分散)で成立し,1乗の世界(標準偏差)では成立しません.このような加算が成り立つ分布は正規分布が唯一です.

 正規分布では標準偏差σを4分位偏差sで置き換えても

  s^2=s1^2+s2^2

は成立します.

 コーシー分布は標準偏差・分散をもたない分布をして知られていますが,quantile(fractile)の存在は保証されます.コーシー分布も加法に関して不変で,コーシー変数の和の分布は再びコーシー分布になります.そして,4分位偏差に関して

  s=s1+s2

すなわち,1乗の世界での加算が成り立ちます.

 同様にして,レヴィ分布については,1/2乗の世界での加算

  s^1/2=s1^1/2+s2^1/2

が成り立ちます.

 以上まとめると

  s^k=s1^k+s2^k

  k=2:正規分布

  k=1:コーシー分布

  k=1/2:レヴィ分布

となります.

===================================

【3】確率変数の積・商の分布

 前節では確率変数の和の密度関数を求めましたが,実は和の分布は特性関数を用いるとより簡単に求めることができます.また,メリン変換などを用いると,確率変数の積,商,代数関数などの分布を得ることができます.ここでは,特性関数やメリン変換に拠らず,ヤコビアンの考え方をもっと一般論化して,和や差だけでなく,積x1*x2や商x1/x2の分布,さらに進んで代数関数(ax1+b)/(cx2+d)の分布などを求めることにします.

(例題)x,y〜N(0,1)のとき,商x/yの分布はコーシー分布:f(x)=1/π(1+x^2)にしたがうことを導いてみましょう.

  z=x/y,w=y,すなわち,x=zw,y=wよりヤコビアンは

  J=∂(x,y)/∂(z,w)=|w,z|=w

  |0,1|

 したがって,

p(z,w)=f(zw)g(w)J=1/2πexp{-(z^2w^2+w^2)/2}w

h(z)=∫(-∞,∞)1/2πexp{-(w^2(z^2+1))/2}wdw

=2/2π∫(0,∞)exp{-(w^2(z^2+1))/2}wdw

=1/π(z^2+1)

これはコーシー分布です.なお,積xyの分布は第2種変形ベッセル関数になります.

===================================

【4】コーシー分布の標本平均値の分布

 つぎに,特性関数を利用して,正規分布とコーシー分布からの標本平均の分布を調べてみます.x1,x2,・・・,xnが互いの独立で同じ正規分布N(μ,σ^2)に従うとき,標本平均(x1+x2+・・・+xn)/nの特性関数は,

  [φ(t/n)]^n=[exp(iμt/n-σ^2t^2/2n^2)]^n=exp(iμt-σ^2/nt^2/2)

これはN(μ,σ^2/n)の正規分布そのものです.

 一方,x1,x2,・・・,xnがすべて同じコーシー分布:f(x)=1/π・α/(α^2+(x-μ)^2)に従うとき,コーシー分布の特性関数は

  φ(t)=exp(iμt-α|t|)

ですから,標本平均の特性関数は,

  [φ(t/n)]^n=[exp(iμt/n-α|t/n|)]^n=exp(iμt-α|t|)

すなわち,もとの分布とまったく同じです.このことはコーシー分布に従う変量を測定するとき,何回測定を繰り返したとしても,分散は小さくならないことを意味しています.

 この結果からコーシー分布に従う変数については中心極限定理が成立しないことがわかります.一様分布などほとんどすべての分布に対して,中心極限定理は成り立つのですが,コーシー分布のように分散が無限大になる分布に対しては適用できないのです.

 中心極限定理「分布が平均と分散をもちさえすれば,互いに独立な小さな誤差の集積した結果は,平均と分散以外の微細構造にはよらず,漸近的につねにガウス分布にしたがう」が成り立つための条件等については,リンデベルグ,レビィ,リアプノフなどにより非常に詳しく研究されていて,実は独立な確率変数の和の分布の極限としては正規分布以外のものも可能です.正確にいうと和の分布の極限は,無限分解可能な分布で近似されるというのが中心極限定理であり,さらに,再生性をもつ分布のうち極限分布が正規分布になるための条件も「中心極限定理」清水良一(教育出版)などのなかで詳しく述べられています.それによると,平均や分散をもたないコーシー分布を別にすれば,正規分布に近づきます.ただし「中心極限定理が成り立つ」といっても,正規分布への収束の速さとタイプはさまざまで,一般に左右非対称の分布では収束の遅いことが確かめられています.

===================================

【5】コーシー分布の標本中央値の分布

 コーシー分布

  f(x)=1/π・α/(α^2+(x−μ)^2)

  F(x)=1/π[arctan(x-μ)/α]+1/2

より,中央値x(m+1)の確率密度関数は

  g(x)=(2m+1)!/(m!)2π2^2m{1-(2/πarctan(x-μ)/α)2}^mα/(α^2+(x−μ)^2)

となります.

 長い積分計算の後,

  期待値E[x(m+1)]=μ

  分散V[x(m+1)]=α^2/(n+2)(π/2)^2{1+2/(n+4)(π/2)^2+3/(n+4)(n+6)(π/2)^4・・・}

nが十分大きいところでは

  V[x(m+1)]=α^2/(n+2)(π/2)^2

これにより標本中央値の分散は標本の大きさnを大きくすると小さくなることが示されました.コーシー分布に従う変数については,標本平均値に関する中心極限定理が成り立たないわけですから,まことに注目すべきことです.

 また,コーシー分布の中央値の分布は漸近的に平均μ,分散π^2α^2/4nの正規分布になることも導き出されます.これはα^2/(n+2)(π/2)^2と漸近的に等しくなります.したがって,標本中央値に関する極限定理「母集団のメジアンをμmとすると,メジアンの分布は漸近的に正規分布N(μm,1/{4n[f(μm)]^2})になる」という式は簡単な推定方式ながら,かなりよい推定量を与えてくれることがわかります.

===================================