■どの確率モデルを選定するか(その3)
かなり前のことですが,ヒストグラムに対する分布関数の適合プログラムを作成したことがありました.100種類に近いくらいの分布関数を扱うものでした.
===================================
[1]母数推定法
モデルとして仮定した確率分布には未知のパラメータ(母数)が含まれています.パラメータとは確率分布を特徴づける定数のことで,パラメータの値によってはじめてその確率分布の型が決まります.観測データから確率分布の未知パラメータの値を推定するには,
a)パーセント点による方法
b)最小χ2 法
c)積率推定法(モーメント法)
d)最尤推定法(最尤法)
などが考案されています.
この中でもっとも汎用されている母数推定法は積率法と最尤法ですが,積率法はコンピュータが手軽に利用できなかった頃の計算方法で,現在,そのままの形で利用するには少々古典的であり,最尤法の初期値を求めるのに利用されているにすぎません.
===================================
[2]最尤法
あてはめる確率分布関数をy=f(x)とします.最尤法において,尤度関数をLとおくとL=Πf(xi)と定義されます.尤度関数の自然対数を対数尤度関数といいますが,ここで,対数尤度関数はlnL=Σlnf(xi )となります.尤度関数を最大にするパラメータの値と対数尤度関数を最大にするパラメータの値は等しくなります.
sの最大化は−sの最小化と等価ですから,−sを目的関数とした最小化問題に帰着できます.したがって,尤度方程式はs=−lnLとおいて,
∂s/∂aj =0 (j=1〜m)
と書くことができます.この方程式は解析的に解けないことがしばしばあり,そのような場合,反復近似によって解を求めることができます.
ニュートン法による更新公式は
Σ∂^2s/∂aj∂akΔak=−∂s/∂aj
です.実際に,s=−lnL=−Σlnf(xi)を代入すると,
−∂s/∂aj=Σ1/fi(x)∂fi/∂aj
∂^2s/∂aj∂ak=Σ[1/fi^2(x)∂fi/∂aj∂fi/∂ak−1/fi(x)∂^2 fi/∂aj∂ak]
が得られます.
以上のように,最尤推定値を求めるには対数尤度関数をパラメータに関して微分して0とおきその解を求めますが,最尤法を用いた確率分布関数の母数推定においては,最小2乗法の場合とは異なり,ガウス・ニュートン法,すなわちヘッセ行列の右辺第2項を無視して解く方法は収束がかなり不安定になってしまいます.そのため,ヒストグラムに対するあてはめではニュートン・ラプソン法を採用して式どおりに計算するほうが収束安定性がよくなるのです.
===================================
[3]モーメント法(積率法)
確率分布の特徴を表わすために,中心の尺度として母平均μ=E[x],変動の尺度として母分散σ^2=E[(x−μ)^2]がよく使われます(E[・]は・の期待値の意).μやσ^2はモデルとしての確率分布を特徴づける定数であって観測不能な値です.これに対して,観測データから計算される平均x=Σxi/nは母平均と区別するため標本平均と呼ばれます.同様に実際のデータから計算されるs2 =Σ(xi−x)^2/nは標本分散,また,nの代わりにn−1で割ったものをu^2で表わし,u^2=Σ(xi−x)^2/(n−1)は標本不偏分散と呼ばれます.ここで,ns^2=(n−1)u^2の関係が成り立ちます.
母平均(μ),母分散(σ^2)はそれぞれ標本平均(x),標本分散(s^2)によって推定することができます.一般に,E[(x−α)^k]はα回りのk次モーメントと定義され,とくにE[x^k]は原点回りのk次モーメントになっていて,Σxi^k/nによって推定することができます.
以上より,母平均=原点まわりの1次モーメント,母分散=平均値まわりの2次モーメントと表現することができます.すなわち,モーメントは分布曲線の位置と形を表わす量で,1次モーメントは平均,2次モーメントは分散,3次以上の奇数次モーメントは歪度(skewness),4次以上の偶数次モーメントは尖度(kurutosis )と関係しています.
カール・ピアソンによる積率法(モーメント法)では,確率分布の理論モーメント(μ1 ,μ2 ,μ3 ,・・・)と標本モーメント(m1 ,m2 ,m3 ,・・・)がそれぞれ等しいとおいた方程式を確率分布のパラメータの数だけ作ればパラメータの値が推定でき関数形は確定します.つまり,2母数確率分布では2つの方程式,3母数確率分布では3つの方程式が必要になります.ここで,実測値である標本モーメントは次のように計算されます.
m1 =Σxi/n(=x)
m2 =Σ(xi−x)^2/n(=s^2)
m3 =Σ(xi−x)^3/n
・・・・・・・・・・・・・・・・・・
mk =Σ(xi−x)^k/n
正規分布の場合について説明すると,分布関数の未知パラメータはμ1 =μ,μ2 =σ^2の2母数ですから,おのおのに対してその推定量であるm1 (標本平均x)とm2 (標本分散s^2)を代入すれば未知母数が決定できます.
μ=E[x]=Σxi/n=x(標本平均)
σ^2=E[(x−μ)^2]=E[x^2]−E[x]^2
=Σxi^2/n−(Σxi/n)^2=Σ(xi−x)^2/n=s^2(標本分散)
===================================
[4]最尤法(最大尤度推定法)
モーメント法を提唱したのはピアソンですが,標本から母集団のパラメータを推定する際に,データが与えられる以前からパラメータの事前確率分布という恣意的要素が含まれていると批判し,モーメント法に代わるものとして最尤推定法(最尤法)を提唱したのはフィッシャーです.ピアソンとフィッシャーは両者とも強い個性の持ち主であったようで,生涯に何度も有名な論争をしています.
最尤法では,標本が与えられたときに事後的にその標本値をもたらした同時確率分布関数(尤度関数)の値を最大にするパラメータの値,すなわち最尤推定値を求めます.例として,平均μ,分散σ^2の正規分布N(μ,σ^2)からn個の標本(x1,x2,・・・,xn)が観測されたという状況を考えて,パラメータμ,σ^2の値を求めてみることにしましょう.
xの確率密度関数は
f(x)=1/√2πσ・exp(−(x−μ)^2/2σ^2)
ですから,尤度関数は
L(μ,σ^2)=Πf(xi )
=f(x1)f(x2)・・・f(xn)
=(2πσ^2)-n/2exp(−Σ(xi−μ)^2/2σ^2)
と定義されます.ここで両辺の対数をとると
lnL=Σlnf(xi)
=−2/nln2πσ^2−Σ(xi−μ)^2/2σ^2
になります.
対数尤度を最大にするμとσ^2は
∂lnL/∂μ=0,
∂lnL/∂σ^2=0
の解としてあたえられますから,
∂lnL/∂μ=Σ(xi−μ)/σ^2=0,
∂lnL/∂σ^2=−n/2σ2+Σ(xi−μ)^2/2σ^4=0
よりμの最尤推定値はΣxi/n=x(標本平均),σ^2の最尤推定値はΣ(xi−x)^2/n=s^2(標本分散)が得られます.つまり,通常使用している標本平均,標本分散は最尤推定量となっていることが導かれます.
また,標準偏差σの最尤推定値を考えると,
∂lnL/∂σ=−n/σ+Σ(xi−μ)^2/2σ^3=0
よりσ=√Σ(xi −x)^2/nが得られます.すなわち,母標準偏差の最尤推定値は標本標準偏差です.従来から何気なく使ってきた平均値と分散の理論的背景には,実は最尤推定法があることが理解されるでしょう.
一方,標本分散s^2はE[s^2]=(n−1)/n・σ^2より偏り−σ^2/nをもっていて,不偏推定量ではありません.偏差平方和を(n−1)で割った不偏分散u^2=Σ(xi−x)^2/(n−1)は最尤推定量ではなく,推定値の期待値が母分散σ^2と一致する不偏推定量となっています(E[u^2]=σ^2).
平均の不偏推定値と最尤推定値は一致しますが,両方の推定量がいつも一致するとは限らず,このように分散の不偏推定値と最尤推定値は一致しません.また,不偏分散の平方根は不偏標準偏差にはなりません.母標準偏差の不偏推定値,すなわち,E[d]=σなるdは,
d=√n/2Γ{(n−1)/2}/Γ(n/2)s
=√(n−1)/2Γ{(n−1)/2}/Γ(n/2)u
で与えられます(シュワール(Shewhart)の公式).ここで,sやuの係数は1より大きい値を示すところから,d>u>sになります.この式の誘導は難しいのでおしつけがましく結果だけを書いておきますが,天下りで我慢できないかたは吉沢康和著「新しい誤差論」共立出版刊などを参照してください.
正規分布を使用する平均値の差の検定は,大標本すなわち豊かな資料が得られているときだけ信頼できることはよく知られています.しかし,そう頻繁に繰り返すことのできない実験もあり,その場合でも小さな標本から平均値の差の有意性を判定する必要が生じます(スチューデントのt検定,1907年).ここで,Γ{(n−1)/2}/Γ(n/2)はt分布の確率密度関数の定数であることから,データ件数が少ないときの平均値の差の検定に関してはt分布を使うことになり,母分散σ2 の代わりに標本分散s^2を使って推測することは正規分布より少し広めに信頼区間を設定することになります.なお,不偏分散と母分散の比はガンマ分布になります.
不偏標準偏差の例のごとく,どんな場合にも不偏推定量が簡単に見つかるとは限りません.不偏推定量は無限回繰り返しを行なったらという実際にはできないことを想定したうえで得られる虚構の値で,一方,最尤推定量には無限回の発想は入っておらず,常に1回のn個のデータから求める推定量になっているため,それ自身かなり好ましい性質をもっています.確率論の基礎的な定理である最尤法は,最小2乗法を導き出す指導原理であり,近代統計解析の核心といってよいほどデータ解析において極めて重要な方法になっているのです.
===================================
[5]モーメント法と最尤法の比較
前節節より,正規分布ではモーメント法と最尤法は同じ推定量を与えることがわかりましたが,最尤法では,目的関数sの2階微分行列(ヘシアン)H=[■^2s/■aj■ak]の対角要素からパラメータの誤差を同時推定することができます.したがって,最尤推定法の一つの型の中で議論できるという強みをもっている最尤法に比較すると,モーメント法では推定効率が低くなり,母数の点推定のみで区間推定することはできません.
一般に,モーメント法はより容易に推定量を求められるため自然の要求にあった推定法といえます.一方,最尤法はモーメント法ほどには直感に訴える意味を持ち合わせておらず,最尤法で母数を推定することは計算機の助けなしにはほとんど不可能です.すなわち,前者のほうが直感的で人の心にストレートに訴えるものがあるが往々にして失敗するのに対し,後者は論理を優先し面白味に欠けるが着実であるというわけです.
ただし,望ましい推定量の基準として要求される条件には不偏性,一致性,有効性,最尤性などがあげられますが,モーメント法では高々数次までのモーメントの一致性が保証されるのみで高次のモーメントでは不偏性はおろか一致性すら成立しないため,その推定量は満足すべき特性をもっていません.
そのため,モーメント法で求めたパラメータを初期値として最尤法を用いてなるべく精密な推定値を誤差も含めて求めておくことが要求されます.実際,最尤法を用いた確率分布関数の母数推定では,初期値は積率法で求められることが多いのですが,最尤法において,
Σ∂^2s/∂aj∂akΔak=−∂s/∂aj
を解く方法は,分布によっては正則条件が満たされず適用できませんし,解も不安定になり,大きな計算誤差を伴うかあるいは計算不能になってしまうため,簡単には未知パラメータを求められなくなることがあります.その場合のパラメータ推定には,煩雑な取り扱いを避けるためにモーメント法がよく使われます.したがって,確率分布のパラメータ推定に最良かつ万能の方法は存在せず,現実的にはモーメント法と最尤法が相互補完的に用いられています.
===================================