■確率分布・各論(その6)
【1】離散分布
若干の例外はありますが,非負の整数0,1,2,・・・における確率が与えられる分布が離散型分布です.離散分布には,2項分布やポアソン分布など多くの分布がありますが,2項分布,ポアソン分布は正規分布とともに3大確率分布と呼ばれ,もっともよく用いられています.
以下,簡単に離散分布の解説をしていきますが,一般的にいって,きっちりした結果を出すには離散分布(Σの世界)のほうが連続分布(∫dxの世界)より難しくなります.
===================================
(1)2項分布
2項分布は1回の実験で2通りの結果のいずれか1つのみが生ずるn回の試行における最も基本的なモデルです.
離散分布の解説ではしばしばポリアの壷と呼ばれるモデル(urn model)が用いられますが,ここでは,不良品の含まれたロットで代用することにします.不良率pの製品のロットから,n個の製品を抽出して調べる場合について考えてみましょう.
1回ずつもとに戻して調べる復元抽出では,取り出した1個の製品について不良品である確率がp,良品である確率がq=1-pですから,x個が不良品(n-x個が良品)になる確率は
p(x)=nCxp^x(1-p)^(n-x) x=0,1,2,・・・,n
で表されます.
この分布の形状は,p=1/2のとき対称,p<1/2のとき正に,p>1/2のとき負にゆがみます.したがって,一般には平均値は最頻値とは異なります.しかし,p=1/2|でもnが十分大きい場合には非対称性は減少し,2項分布は正規分布で近似できるほぼ対称的な形になることが知られている(2項分布のガウス近似).
また,
母平均=np
母分散=npq
より,母平均はつねに母分散より小さくなります.変動係数の平方をつくってみるとμ2/μ1^2=(1-p)/np
これより,変動係数そのものはnの平方根に逆比例するから,観測数を増加させれば誤差が小さくなることを示すものであって,常識的にも了解できることです.
1.2項分布の再生性
同じ確率pをもつ独立な2項確率変数の和の分布は2項分布になります.
xi〜B(ni,p) Σxi〜B(Σni,p)
なお,差の分布は2項分布にはなりません.
2.2項分布の正規近似
nが十分大きいとき2項分布は正規分布で近似できます(ド・モアブル=ラプラスの定理).これは中心極限定理の特別な場合にあたり,エーレンフェストのふるいという簡単な実験装置を用いると視覚的にもそれを確認することができます.
nが20を超えると2項分布の計算は面倒になるが,ガウス分布なら計算は簡単であるから,nが大きいと2項分布がガウス分布で近似できるということは,実用上きわめて有用である.
2項分布は超幾何分布の代用としても応用されていますが,以下に述べる幾何分布,負の2項分布,ポアソン分布なども2項分布との関連が強い分布です.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
(2)ポアソン分布
2項分布は正規分布で近似されるというのが,ド・モアブル=ラプラスの定理であることはすでに述べたが,2項分布において,nが十分大きくpが小さい値をとるならば,それはポアソン分布で近似されます.
(証明)2項分布において,母平均=npを一定の値λに保って,p→0,n→∞にしてみましょう.2項分布において,p(x+1)/p(x)という比をつくってみるとp(x+1)/p(x)=(n-x)/(x+1)・p/(1-p)
p→0,n→∞であれば,有限のxに対してはp(x+1)/p(x)≒np/(x+1)
また,テイラー展開より,p(0)=(1ーp)^n≒exp(-np)
これらの結果を組み合わせれば,p(x)=(np)^x/x!exp(-np)
したがって,極限ではp(x)=exp(-λ)λ^x/x! x=0,1,2,・・・になります.これはポアソン分布を示す式にほかなりません.
p→0,n→∞ですから,ポアソン分布とは1回の試行では稀にしか起きない現象の非常に多くの試行での生起回数の分布モデルと解釈できます.
ポアソン分布にはパラメータは1個しかなく,また,ポアソン分布では母平均と母分散が等しくなります.(平方根則の根拠となるものである.)
母平均=λ
母分散=λ
ということは母平均が決まれば分布の形が決まってしまうことを意味しています.平均値が既知の分布はポアソン分布で近似できるのだが,ポアソン分布するデータの取り扱い安さも取り扱い難さもここに端を発しているのです.(ポアソン分布は母数がひとつしかない独特の分布なのである!).変動係数の平方はμ2/μ1^2=1/λ=1/npというきわめて簡潔な形となります.
なお、ポアソン分布は稀に起こる事象に適用されるため,一般にnpが5以下の非対称性のいちじるしい分布がすぐ連想されますが,npがもっと大きい領域にまで利用しても差し支えない.そして,λが大きくなれば分布の形は次第に対称的な形になり,正規分布に近づく(ポアソン分布のガウス近似).
1.稀な現象のモデル分布
時間的・空間的にランダムに起こる事象,たとえば,ある微小面積に落ちる雨滴数や放射性物質からある時間内に放射される放出粒子数などは,いずれもポアソン分布に従う確率変数とみなすことができます.
その際,ある一定の時間Tの間に事象の起こる数を数えることにして,得られた回数をνで表すことにする.この実験で時間Tの間に起こる事象の平均回数に関する最良推定値は,観察された回数νであるが,その誤差は平方根をとってrootνとなる.これを「計数実験についての平方根則」とよぶ.
なお,一定時間内の放射線のカウント数を数える代わりに,あるカウント数に足すウルまでの時間を測定したら,どのような解析理論が組み立てられるかについては,粟屋隆「時間測定法による放射能測定データの解析」に詳しい.nカウントに達するまでの測定時間は連続量であるから,区間推定の目的にとってはカウント数だけに頼るよりはるかに適している.
2.ポアソン分布の再生性
ポアソン分布する変数の和の分布は平均Σλi,分散Σλiのポアソン分布になります.一方,差の分布は簡単には表せませんが,第1種変形ベッセル関数を用いて
p(x)=exp(-λ1-λ2)(λ1/λ2)^x/2 Ix/2(2√(λ1*λ2))
で表されます.
歴史を回顧すると,ボルトキューウィッツは帝政プロシア軍隊の兵士の中で馬に蹴られて死亡した者の数の分布がポアソン分布でよく近似されること示しました.この事例はポアソン分布が統計学で使われた最初の例ではないかと考えられていて,実際のデータによくあてはまったことからポアソン分布のことを小数の法則と呼びました.
ポアソン過程にしたがう現象の時間間隔は指数分布にしたがうことは前述したとおりですが,ポアソン分布からは指数分布やガンマ分布が導出できます.ポアソン分布は連続分布における正規分布と類似の役割をもち,多方面にまたがって応用されています.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
(3)超幾何分布
2項分布では調べる製品をそのつどもとに戻していましたが,もとに戻さない(非復元抽出)でn個の製品を調べたときの不良品の個数xの確率分布が(古典的)超幾何分布です.N個の製品中にM個の不良品が含まれているとすると,その確率はp(x)=(M,x)(N-M,n-x)/(N,n)
で表されます.
母平均=nM/N
母分散=(N-n/n-1)nM/N(1-M/N)
超幾何分布の応用としては,捕獲・再捕獲法(capture-recapture method)が有名です.「ある生態系における動物の個体総数Nを推定するためにM匹捕らえてタグをつけ放してやる.のちにn匹捕まえた中にx匹が標識動物であるとするとxの確率分布は超幾何分布にしたがう.」これを利用すると未知数Nが推定できます.NがMに比べて十分大きいとき,超幾何分布は2項分布で近似されることになります.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
(4)一般化超幾何分布(ポリア分布)
超幾何分布のパラメータはいずれも正の整数でしたが,これを形式的に一般化するとより広い分布族を定義できます.超幾何分布を拡張した分布が一般化超幾何分布(ポリア分布)で,これには(古典的)超幾何分布のほかに,負の超幾何分布,ベータパスカル分布が含まれます.
負の超幾何分布は2項分布とベータ分布の畳み込みであり,ベータ2項分布とも呼ばれます.
p(x)=(n,x)B(x+a,n-x+b)/B(a,b)
一方,ベータパスカル分布は負の2項分布(パスカル分布)とF分布の畳み込みであって,
p(x)=(k+x-1,x)B(x+a,b+k)/B(a,b)
と表すことができます.ここで,B(a,b)はベータ関数です.
とくに,重要と思われる負の超幾何分布について抽出モデルを使って説明すると,負の超幾何分布は取り出された品物はもとに戻した上で,不良品が抽出されたらs個の不良品,良品が抽出されたらs個の良品を加えてn回抽出を繰り返したときの不良品の数の分布になります.(ここで,もしs=0ならば2項分布,s=−1ならば古典的超幾何分布と同じになります.)
この分布は品質管理にも応用され,サンプリングサイズnを一定にし,不良品の数があらかじめ決めておいた許容範囲c以下であればロットは合格とします.(c+1個の不良品が観察されるかn−c個の良品が観察されるまで抽出を繰り返すことになります.)
また,負の超幾何分布は,ある事象が生ずるとその周囲にもその事象が生じやすくなる,すなわち弱い伝搬性があると考えられる分布で,ポリア・エッゲンベルガーPolya-Eggenberger分布とも呼ばれ,伝染病伝播の解析などにも用いられています.
さらに,これらの分布は,与えられた数にどれだけ多くの分割があるのか(たとえば,4=1+1+1+1,4=3+1)などの整数の分割理論や統計力学(Maxwell-Boltzmann統計,Bose-Einstein統計,Fermi-Dirac統計)など様々な分野で実際的な問題を解決するのに用いられています.
なお,(古典的)超幾何分布ではa=M,b=x,c=N-M,d=n-xとおくと,
(a,b)*(c*d)/(a+c,b+d)
の形で表すことができました.ここで,2項係数は(n,r)=n!/r!(n-r)!で定義されますが,負の2項係数を
(-n,r)=(-1)^r(n+r-1,r)
と約束すると,一般化超幾何分布でも,(a,b)*(c*d)/(a+c,b+d)の形式に書き表すことができます.すなわち,負の超幾何分布は形式的に
p(x)=(x+a-1,x)(n-x+b-1,n-x)/(a+b+n-1,n)=(-a,x)(-b,n-x)/(-a-b,n)
ベータパスカル分布ではp(x)=(-a,x)(a+b-1,n-x)/(b-1,n)となります.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
(5)負の2項分布(パスカル分布)と幾何分布
2項分布や超幾何分布では製品の検査個数はあらかじめ決められていましたが,n個の不良品が見つかるまで,1個1個もとに戻して検査を続けたとき,観測した良品の数xの確率分布が負の2項分布です.
p(x)=(n+x-1,x)q^xp^n
負の2項係数を
(-n,r)=(-1)^r(n+r-1,r)
と定義しましたが,(n+x-1,x)=(-n,x)/(-1)^xと書けることが負の2項分布の名前の由来になっています.また,この分布はパスカルにちなんでパスカル分布ともよばれます.
母平均=nq/p
母分散=nq/p/p
したがって,負の2項分布では,2項分布とは逆に,母分散のほうがつねに母平均より小さい値をとります.
負の2項分布においてn=1の場合,すなわち不良品1個が見つかるまでの検査回数の分布が幾何分布です.p(x)=pq^x.幾何分布は等比数列(幾何数列)的に減少するところから,幾何の名称がついています.すなわち,幾何分布は連続分布における指数分布に相当するもので,無記憶性(no memory property)をもつ離散分布は幾何分布に限られています.
母数pが等しい幾何確率変数の和の分布は負の2項分布にしたがい,負の2項分布自体にも再生性が成り立ちますから,負の2項分布は連続分布におけるガンマ分布に相当しています.これらの分布はマルコフ過程(現在の状態さえ与えられれば,過去の経歴についての情報が加わっても将来の確率法則が変わらないことを意味する)に関連して,たとえば銀行の窓口にお客がやってくるときの待ち時間の解析などに利用されています.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
(6)ゼータ分布
幾何分布のように単調減少する分布でもっと裾が長い分布としては,対数分布やゼータ分布,ユール分布,ウェアリング分布,ボレル・タナー分布などが知られています.ここでは,いわゆるジップの法則と関連してゼータ分布を取り上げることにします.
ほぼ100年前の経済学者パレートは個人所得の多い順にならべて,1,2,3,・・・と順位をつけその順位を横軸に,縦軸には所得高をとると双曲線様のパワー曲線が描けることを見つけました.すなわち,Nをx以上の所得を有する人の数とするとN=x^-aとなるという法則です.
個人所得高の分布がパレート分布なのですが,同様のパワー則(power law)は経済学分野のみならず,いろいろな分野で見いだされていて,例えば,社会学における都市人口の分配法則(人口の多い順に都市をならべ,その順位を横軸,縦軸には人口ととると双曲線ができる),言語学におけるパワー則(ある言語の単語を出現頻度順にならべるとその出現確率は簡単な双曲線則にしたがう)など,これらを総称してジップの法則といいます.
このようにして導かれた連続分布をパレート分布と呼びます.パレート分布は,経済学者にとっては60年以上昔から知られていて,人文科学領域のみならず,熱力学的解析などにも応用されてきました.また,パレート分布の逆数の分布がべき乗分布です.
パレート分布は連続分布ですが,導出された起源を考えると本来の姿は離散分布です.そこで,パレート分布を離散化すると,以下のようなゼータ分布(離散パレート分布)が得られます.
p(x)=[ζ(ρ+1)]-1x^-(ρ+1) x=1,2,3,...
μ's=ζ(ρ-s+1)/ζ(ρ+1)
【格差問題の分析】
人の所得は高低様々であり,かなりの程度の不平等性を有していると考えられます.個人所得高の分布がパレート分布にしたがうことを述べましたが,所得分布その他の経済現象の格差問題をパレート分布や対数正規分布,ローレンツ曲線,ジニ係数などを用いて分析を行うことができます.
パレート分布の確率密度関数f(x)=am/x^(a+1)において,aはパレート係数と呼ばれ,値が小さいほど格差があると解釈されます.一方,対数正規分布の確率密度関数においてσはジブラ係数と呼ばれ,この値が大きいほど分布の幅が広くなりますから,格差が大きいと考えることができます.
また,所得の低い人から順に1,2,・・・nと番号をつけ横軸にとり,次に一番所得の低い人からi番目の人までの所得の合計を縦軸にしてグラフを描くと右上がりの曲線が得られます.この曲線をローレンツ曲線と呼びます.ローレンツ曲線は下に凸の曲線で,全員が同一所得の場合には直線になりますから,直線とローレンツ曲線の間の面積:area of concentration(集中度)は不平等を表す指数と考えられます.
===================================