■分布特性値(その3)

【1】中心極限定理

 キュムラント母関数を用いて,「独立な確率変数xiがいずれも同一の平均値μと分散σ2をもつような任意の分布に対して,その標本平均の確率分布はn→∞の極限で正規分布N(μ,σ^2/n)になる」を証明してみましょう.

(証明)独立な確率変数xiがいずれも同一の平均値μ,分散σ^2と積率母関数M(t)をもつものとすると,n個の変数の和s=x1+x2+・・・+xnの積率母関数は,

M(t)=[Mx(t)]^n

したがって,z=s/√(n)とすると,その積率母関数は

Mz(t)=[Mx(t/√(n))]^n

これよりzのキュムラント母関数は

nlogMx(t/√(n))=n{κ1t/√(n)+κ2/2t^2/n+κ3/6(t/√(n))^3+・・・}

=√(n)μt+σ2/2t^2+κ3/6t^3/√(n)+・・・

 r次のキュムラントはκrn^(-r/2+1)となって,n→∞のとき,3次以上のキュムラントが0に近づく.すなわち,s/√nはN(√nμ,σ2)に収束する.(厳密な証明ではありません)

 このような内容の定理を「中心極限定理」といい,自然界における正規分布の普遍性を説明する1つの根拠とされています.中心極限定理にはいろいろなバリエーションがあり,s=(x1+x2+・・・+xn)とすると,標本平均s/nが適当な条件のもとで正規分布N(μ,σ^2/n)に,s/√nがN(√nμ,σ2)に,あるいはsがN(nμ,nσ2)に収束することを示したものの総称です.

 たくさんの確率変数の和は,各々の確率分布の形によらず,普遍的な正規分布に従うという事実は,いい換えれば,巨視的なアウトラインは微視的なディテールには依存せず,平均値や分散など大まかな性質だけで決まってしまうというものであり,量子論におけるくりこみの考え方に似ています.すなわち,中間状態のたし上げは1種の平均操作であり,その結果,微視的なディテールは見えなくなって,巨視的に意味のあるものだけが残るのだと考えられます.

===================================

【2】中心極限定理を利用した正規乱数発生法

 一様乱数をもとに正規乱数を発生させる具体的な方法を述べてみます.中心極限定理によって,区間(0,1)の一様乱数ri(平均1/2,分散1/12) をn個合計したものの分布は平均値μがn/2,分散σ^2がn/12の正規分布に近くなりますから,正規化してZ=√12/n(Σri−n/2)とおけば,Zの分布は標準正規分布N(0,1)となります.そこで,12個の一様乱数を加えることにすると平方根の計算をしないで済みます.

  Z=(Σri−6)    (i=1〜12)

 実際,一様分布に従う確率変数12個ずつの平均をとり100個のデータから構成したヒストグラムは元の一様分布とは似ても似つかない滑らかな分布となります.なお,中心極限定理を利用した正規乱数発生法は,12個の一様乱数から1個の正規乱数が得られる効率のよくない方法で,それに比べ,ボックス・ミューラー法はかなり効率がよくなっています.

===================================

【3】その他の分布特性値

 確率分布の位置情報に対応する指標としての平均値は重要な統計量です.一方,尺度情報(散らばり)に対応する指標としては標準偏差・分散が分布全体を要約する重要な統計量になっています.しかし,平均値といっても,算術平均の他に幾何平均,調和平均があり,また,代表値といえば算術平均がまずあげられますが,中央値,最頻値も忘れてはなりません.尺度情報についても,たった1つの数で表現できるはずもなく,他にもばらつきの度合い(散布度)を反映する統計量が考えられています.

[1]位置情報に関する特性値

(1)中央値median

 F(X)=.5すなわち全体の半分である点で,中位数(50%点)とも呼ばれます.中央値μmでは

  ∫(a,μm)f(x)dx=∫(μm,b)f(x)dx=1/2

が成り立ちます.

(2)最頻値mode

 確率密度関数p(x)が最大点を示すx座標はモードといわれます.単峰で尖点のない分布の場合はdf(x)/dx=0の根が最大確率を示すx座標であり,d2f(x)/dx2<0を満たします.

 左右対称形の分布では平均,メジアン,モードは一致しますが,一峰性の非対称分布において平均値,中央値,最頻値は一致せず,右に裾を引くゆがんだ(right skewed)分布ではモード<メジアン<平均,負のゆがみ(左に長いすそ:left skewed)を示す場合は最頻値>中央値>平均値になります.それぞれ,mean,median,modeを辞書式に配列させると昇順・降順になっています.

[2]尺度情報に関する特性値

(1)平均偏差

 平均値からの偏差(x-μ)の絶対値の平均,すなわち

E[|x-μ|]=∫(-∞,∞)|x-μ|f(x)dx

として定義される指標が平均偏差です.

 算術平均μは分散∫(-∞,∞)(x-m)2f(x)dxを最小とする統計量であるのに対し,中央値は平均偏差∫(-∞,∞)|x-m|f(x)dxを最小とする統計量です.しかし絶対値記号は数学的な扱いが面倒で,平均偏差よりも標準偏差のほうが簡単に取り扱えます.

(2)4分位偏差

 累積確率F(x)が0.25k(k=1,2,3)の点Q1,Q2,Q3を四分位数(quartile)といいます.Q2が中央値にあたります.また,第3四分位数Q3と第1四分位数Q1の差は4分位偏差と呼ばれます.

 コーシー分布の場合について説明すると

  ∫f(x)dx=1/π[arctan(x-μ)/α]

ですから,1/4,2/4,3/4に等しい点を求めてみると

第1四分位数(25%点)をQ1=μ−α,

中央値(50%点)Q2=μ

第3四分位数(75%点)Q3=μ+α

であることが理解されます.したがって,コーシー分布では4分位偏差は2αであり,区間[μ−α,μ+α]にデータの50%が集中することがわかります.

 同様に,F(x)=0.10k(k=1,2,---9)なる点10分位数(decile)や8分位数(octile),16分位数(hexadecile)なども考えることができます.これらの分位点は一般にquantile(fractile)とよばれます.

 話は少し脱線しますが,2つの正規変数の和の分布は別の正規分布に従います.これを正規分布は加法に関して不変(invariant)であるといいます.このとき,和変数の分散σ^2は個々の変数の分散σ1^2とσ2^2の和と等しくなります.すなわち,

  σ^2=σ1^2+σ2^2

です.

 加算は2乗の世界(分散)で成立し,1乗の世界(標準偏差)では成立しません.このような加算が成り立つ分布は正規分布が唯一です.正規分布では標準偏差σを4分位偏差sで置き換えても

  s^2=s1^2+s2^2

は成立します.

 コーシー分布は標準偏差・分散をもたない分布をして知られていますが,quantile(fractile)の存在は保証されます.コーシー分布も加法に関して不変で,コーシー変数の和の分布は再びコーシー分布になります.そして,4分位偏差に関して

  s=s1+s2

すなわち,1乗の世界での加算が成り立ちます.

 同様にして,ブラウンノイズ関数(レヴィ分布)については,1/2乗の世界での加算

  s^1/2=s1^1/2+s2^1/2

が成り立ちます.以上まとめると

s^k=s1^k+s2^k

k=2正規分布

k=1コーシー分布

k=1/2ブラウンノイズ関数

となります.

[補]安定分布

 多くの分布では2次モーメントまでは存在しますが,なかにはコーシー分布のように1次モーメントすら存在しない分布があります.このような分布に対しては,中心極限定理は適用できません.コーシー分布に従う独立な確率変数の和が極限分布としてどのような分布をもつだろうか? この極限分布が存在すれば,「安定分布」と呼ばれます.

 F(a1x+b1)*F(a2x+b2)=F(ax+b)

すなわち位置=尺度母数モデルF(ax+b)の畳み込みが再びF(ax+b)となるような性質をもつ分布を安定分布(stable distribution)と呼びます.

 前述したようにすべての分布について,中心極限定理が成立するというわけではなく,平均や分散が発散するときには,中心極限定理は成立しません.(たとえば,コーシー分布).しかし,0≦α<2をパラメータとして,それらの和をn^1/αで規格化した極限が存在する分布があります.

 モーメントがα次を境として収束,発散を異にする場合,指数αの安定分布といいます.とくに指数α=1の対称な安定分布はコーシー分布とよばれます.2≦α≦∞ならばその値に関係なく普遍的にガウス分布,0≦α<2ならば,その値がそれぞれ個性をもち指数αの安定分布と呼ばれます.

 また,すべての安定分布は,無限分解可能な分布であり,その特性関数は,

exp(iat-c|t|^α{1+ibt/|t|ω(|t|,α)}

ω(|t|,α)=tan(πα/2) α<>1

=2/πlog|t| α=1

と表されます.b=0の安定分布は左右対称となります.

正規分布(α=2,b=0)

コーシー分布(α=1,b=0)

ブラウンノイズ関数(α=1/2,b=-1)=レヴィ分布

(3)半値幅(FWHM:full-width at half-maximum)

 半値幅とはピークの高さの半分における幅を示しており,分布のばらつきを表わすものとして実用上便利な目安になっています.再び,コーシー分布の場合で説明すると,コーシー分布では,x=μのとき最大値1/απ,x=μ±αのとき1/(2απ)となりますから,f(μ±α)は分布曲線の最大値の半分に相当します.そのためμ−αとμ+αの距離2αを半値幅といいます.ちなみに,正規分布の半値幅は2√2ln2σ=2.35σになります.

===================================

【4】その他の特性値

(1)u-統計量

un=1/(n,r)Σh(xi1,・・・,xir)

1≦i1≦・・・≦ir≦n

を満たすすべても組合わせ(i1,・・・,ir)についての和

 標本平均の一般化であり,h(x)=x(r=1)とおくと標本平均,h(x,y)=(x-y)^2/2(r=2)とおくと標本不偏分散に一致する.ウィルコクソンの符号付き順位検定は2つのu-統計量の線形和として表されることが知られている.

(2)情報量とエントロピー

 卑近な例ですが,「明日は雨が降るでしょう.」と「明日は槍が降るでしょう」を比べてみましょう.前者は何の変哲もない天気予報ですが,もし後者が,実際に起こったとしたら一大事です.

 前者のようにありふれた事象ほど情報量は小さく,後者のように滅多に起こらないものほど情報量は大きいと考えられます.

 そこで,情報量を生起確率の逆数の対数で定義することにします.

I(x)=log1/f(x)=-logf(x)

また,エントロピー(シャノンの情報量)は情報量の平均値

-∫(-∞,∞)f(x)logf(x)dx

として定義されます.

 量子論でもエントロピーsと実現可能性の数を与える確率分布pを結びつけるボルツマンの公式

  s=kBlogp kBボルツマン定数

がありますが,確率の自然対数で定義されるという類似性(アナロジー)に注目して下さい.

===================================