■中心極限定理不要論(中心極限定理を超えて)
「母集団分布が正規分布でなくても,標本が大きくなると標本平均値の分布は次第に正規分布に近づく」というのが,「中心極限定理」の定性的な内容です.さらに詳しく,定量的に表現すれば「正規母集団以外であっても,その母平均,母分散をそれぞれμ,σ2として,標本平均値の分布が漸近的に正規分布N(μ,σ2/n)になる」ことは高校の教科書にも取り上げられていますから,ご存知の方も多いでしょう.
中心極限定理は,標本平均値についての統計的性質を述べたものと解釈されますが,統計学の定理の中ではダントツによく知られていて,統計学のセントラル・ドグマをなしているといっても過言ではありません.
一方,望ましい推定量の基準として要求される条件には不偏性,一致性,有効性,十分性などがあげられます.検定の妥当性の基準として不偏性は重要ですが,不偏推定量のうちで分散が最小となる推定量を最小分散不偏推定量といい,望ましい推定量の1つの基準とされます.たとえば,母集団が正規分布に従うとき,標本平均は母平均の不偏推定量であり,かつ,あらゆる不偏推定量のなかで分散が最小ですから,正規分布の母平均を推定するには,標本平均が一番よい推定量となります.
ところが,仮定する分布や統計モデルが複雑になると,最小分散不偏推定量が存在しないことがあります.そのような場合においても,コンピュータによる数値計算が容易になった今日,ほとんどオールマイティな推定量の構成法として「最大尤度推定法」(以下,最尤法と略す)があげられます.今回のテーマは「最尤法」と呼ばれる母数推定法の統計的性質に関するものですが,最尤法では,母数θの母分布がたとえ正規分布でなくとも,標本数が多ければ近似的に正規分布からの標本とみなすことができるという「漸近正規性」が成り立ちます.これは,中心極限定理の定性的な性質と同じとみなすことができます.
そこで次なる問題として,最尤推定量の定量的性質はどのようなものであって,中心極限定理とどのような関係にあるのか,知りたいところです.実は,最尤推定量の定量的性質を表している式が「クラーメル・ラオの不等式」と呼ばれるものです.クラーメル・ラオの不等式と中心極限定理は見た目はまるっきり違いますが,このコラムでは,そこから導き出される結果は一致することを示してみることにします.すなわち,最尤法と中心極限定理に基づく結果の同等性・等価性を検証することですが,賢明な読者は最尤法が中心極限定理を包含している事実に気づくはずです.とはいっても,本稿では,中心極限定理を無用の長物と決めつけているわけではありません.要は,中心極限定理を用いずとも,それと同等の結果が導き出されればいいわけです.
なお,最初にお断りしておきますが,本稿では最尤法によるアプローチのテクニカルな面について述べるだけでなく,
(1)わざわざこのような新しい方法を考える必要があるのか?
(2)これまで以上に新しい結果をここから導くことは果たして可能なのか?
などフィロソフィカルな面について考察を与えることにしたいと考えています.コラムの表記法としては,無駄を省いて短く巧みに簡潔にをよしとするのでしょうが,本稿では,方法それ自身よりもどうしてそれが考え出されたか,そのフィロソフィーが重要になるので,冗長になることを何卒ご勘弁願います.
===================================
【中心極限定理】
まずは,中心極限定理について振り返ってみます.中心極限定理にはいろいろなバリエーションがあり,
s=x1+x2+・・・+xn
とすると,標本平均s/nが適当な条件のもとで正規分布N(μ,σ2/n)に,s/√nがN(√nμ,σ2)に,あるいは,sがN(nμ,nσ2)に収束することを示したものの総称です.このような内容の定理を中心極限定理といい,自然界における正規分布の普遍性を説明する1つの根拠とされています.
キュムラント母関数を用いて,中心極限定理を証明してみましょう.
(証明)
独立な確率変数xiがいずれも同一の平均値μ,分散σ2と積率母関数M(t)をもつものとすると,n個の変数の和
s=x1+x2+・・・+xn
の積率母関数は,
M(t)=[Mx(t)]^n
したがって,z=s/√nとすると,その積率母関数は
Mz(t)=[Mx(t/√n)]^n
これよりzのキュムラント母関数は
nlogMx(t/√n)=n{κ1t/√n+κ2/2t^2/n+κ3/6(t/√n)^3+・・・}
=√nμt+σ2/2t^2+κ3/6t^3/√n+・・・
r次のキュムラントはκrn^(-r/2+1)となって,n→∞のとき,3次以上のキュムラントが0に近づく.よって,s/√nはN(√nμ,σ2)に収束する.(厳密な証明ではありません)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
たくさんの確率変数の和は,各々の確率分布の形によらず,普遍的な正規分布に従うという事実は,いい換えれば,巨視的なアウトラインは微視的なディテールには依存せず,平均値や分散など大まかな性質だけで決まってしまうというものであり,量子論におけるくりこみの考え方に似ています.すなわち,中間状態のたし上げは1種の平均操作であり,その結果,微視的なディテールは見えなくなって,巨視的に意味のあるものだけが残るのだと考えられます.
中心極限定理が成り立つための条件については,リンデベルグ,レビィ,リアプノフなどにより非常に詳しく研究されていて,分布が平均と分散をもつことが要請されます.たとえば,平均や分散をもたないコーシー分布では中心極限定理が成り立ちません.そこで,中心極限定理を次のように補完しておきます.
「分布が平均と分散をもちさえすれば,互いに独立な小さな誤差の集積した結果は,平均と分散以外の微細構造にはよらず,漸近的につねに正規分布にしたがう」
また,独立な確率変数の和の分布の極限としては正規分布以外のものも可能です.正確にいうと和の分布の極限は,無限分解可能な分布で近似されるというのが中心極限定理であり,さらに,再生性をもつ分布のうち極限分布が正規分布になるための条件も清水良一「中心極限定理」(教育出版)などのなかで詳しく述べられています.それによると,平均や分散をもたないコーシー分布を別にすれば,正規分布に近づきます.ただし,中心極限定理が成り立つとはいっても,正規分布への収束の速さとタイプはさまざまで,一般に左右非対称の分布では収束の遅いことが確かめられています.
ここで,素朴な疑問をいくつか提起しておきます.
(1)標本平均に関しては中心極限定理が成り立つことがわかったが,例えば,標本分散については,どのような漸近分布となるのだろうか?
(2)コーシー分布のように,中心極限定理が成り立たない分布においては,どのようにして平均値の差の検定をおこなうべきなのであろうか?
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
測定値は近似的に正規分布にしたがうと仮定されていますが,実際の測定結果は必ずしも正規分布にしたがうものではありません.しかしながら,母集団が正規分布でないときであっても,中心極限定理により,標本平均値の分布は測定回数が増えるにつれて正規分布に近づきます.中心極限定理は正規分布のもつ重要性を物語っていて,現在ある統計理論の主流は正規分布およびそれから派生した分布(χ2分布,t分布,F分布)を中心として組み立てられたもので,これまで数々の成果を上げてきたことは説明するまでもありません.正規分布の確率密度関数は複雑そうに見えますが,一般的な誤差の分布関数として導かれたものであって,自然界において普遍的な分布とされています.また,母集団分布が正規分布でなくても標本が大きくなると標本平均値の分布は次第に正規分布に近づく(中心極限定理)や正規分布をする変数どうしの和と差はまた正規分布になる(再生性)など,非常に扱いやすい性質をもっており,これに代わるものを探すのは難しいですし,実際,この分布で多くの現実のデータが近似できます.
なにはともあれ,正規分布は数理統計学,誤差論などの分野で最も重要な分布とみなされ,卓越した地位を占めるにいたっているのです.
===================================
【統計的母数推定法】
n個の測定値(x1,x2,・・・,xn)に対して,m個の未知のパラメータ(θ1,θ2,・・・,θm)を含む確率密度関数f(x,θ)をあてはめることにします.すなわち,観測データから確率分布の未知パラメータの値を推定することですが,推定には
a)パーセント点による方法
b)積率推定法(モーメント法)
c)最小χ2法
d)最尤推定法(最尤法)
などが考案されています.
これらの中で,最小χ2法と最尤法は区間推定が可能ですが,パーセント点による方法と積率法は点推定のみで区間推定できません.しかも,パーセント点による方法はかなりアバウトな推定法であり,統計的母数推定法の立場からは論外の手法です.
最小χ2法は一種の重みつき最小2乗法で,期待度数と観測度数から計算されるχ2値を最小にするようにパラメータの値を定めます.最小χ2法は一見合理的に思える母数推定法ですが,ヒストグラムは区間の幅の取り方によって見かけが大きく異なってくるため,母数の推定値は区間の作り方に依存して変動するという欠点があります.さらに,最小χ2法ではデータが階級分割数までに縮約され,階級分割の過程でデータのもっている情報の一部が失われる欠点もあり,この方法をポアソン分布など離散分布なども含めて一般的に適用する際には厄介な問題が生ずることも指摘されています.
そのため,この中でもっとも汎用されている母数推定法は積率法と最尤法ですが,積率法はコンピュータが手軽に利用できなかった頃の計算方法で,現在,そのままの形で利用するには少々古典的であり,最尤法の初期値を求めるのに利用されているにすぎません.したがって,現在では,積率法でまず点推定し,その値をもとにして最尤法を施してなるべく精密な推定値を誤差も含めて求めるのが,ひとつの標準解法とされています.
===================================
【最尤法による点推定】
最尤法では,標本が与えられたときに事後的にその標本値をもたらした同時確率分布関数(尤度関数)の値を最大にするパラメータの値,すなわち最尤推定量を求めます.同時確率分布関数は互いに独立なn個の測定値の確率密度の積
l(θ)=f(x1)f(x2)・・・f(xn)=Πf(xi)
で表され,また,尤度関数の自然対数を対数尤度関数(logarithmic likelihood function)と呼びます.したがって,対数尤度関数は
L(θ)=log(l(θ))=Σlnf(xi)
と定義されます.対数の単調性から,尤度関数を最大にするパラメータの値と対数尤度関数を最大にするパラメータの値は等しくなります.また,対数尤度関数の値が最大になるパラメータの値は連立方程式
∂L/∂θj=0 (j=1〜m)
を満たします.この連立方程式を尤度方程式(likelihood equation)といいます.
《例》
解析的に母数の最尤推定値を求められる例として,平均μ,分散σ2の正規分布N(μ,σ2)からn個の標本(x1,x2,・・・,xn)が観測されたという状況を考えて,パラメータμ,σの値を求めてみることにしましょう.
xの確率密度関数は
f(x)=1/√2πσexp{-(x-μ)^2/2σ2)
ですから,尤度関数は
f(x1)f(x2)・・・f(xn)=Πf(xi)
=(2πσ2)^(-n/2)exp{-Σ(xi−μ)^2/2σ2}
ここで両辺の対数をとると
L(μ,σ2)=Σlnf(xi)=-2/ln2πσ2-Σ(xi-μ)^2/2σ2
になります.
対数尤度を最大にするμとσは
∂L/∂μΣ(xi-μ)/σ2=0
∂L/∂σ=-n/σ+Σ(xi-μ)^2/2σ3=0
の解としてあたえられますから,したがって,μの最尤推定値はm=Σxi/n(標本平均),σの最尤推定値はs=√Σ(xi-x)^2/n(標本標準偏差)が得られます.すなわち,母平均の最尤推定値は標本平均,母標準偏差の最尤推定値は標本標準偏差です.
なお,標準偏差σでなく,分散σ2の最尤推定値を考えると,σ2を1つの文字とみなして計算すればよいことになり,
∂L/∂σ2=−n/2σ2+Σ(xi-μ)^2/2σ4=0
これより分散σ2の最尤推定値はs2=Σ(xi-x)^2/n(標本分散)となります.つまり,通常使用している標本平均,標本分散,標本標準偏差は最尤推定量となっていることが導かれます.このことから,従来から何気なく使ってきた平均値と分散の理論的背景には,実は最尤推定法があることが理解されるでしょう.
以上のように,尤度さえ表現できてしまえば,あとはその最大化という数値計算の問題に帰着されます.最尤推定値を求めるには対数尤度関数をパラメータに関して微分して0とおきその解を求めますが,正規分布や指数分布のような例外を除き,推定値を解析的な式の形として得ることは一般には不可能で,専ら数値計算により求めます.1組の非線形方程式の解は,通常,ある初期値を出発点として近似の繰り返し計算によって求めざるをえません.実際には,パラメータの変化分δθを未知数として,ニュートン・ラプソン法など反復近似法によって解を求めることになります.
1変数非線形方程式の場合のニュートン・ラプソン法の更新公式
Δx=−f(x)/f'(x)
はよく知られていますが,多変数の場合の更新公式は
Σ∂2L/∂θj∂θkδθk=∂L/∂θj
となります.実際に,L=Σlnf(xi)を代入すると,
∂L/∂θj=Σ1/fi(x)∂fi/∂θj
∂2L/∂θj∂θk=Σ{1/fi2(x)∂fi/∂θj∂fi/∂θk-1/fi(x) ∂2fi/∂θj∂θk}
が得られます.この計算により近似値の修正値が得られますので,この計算を繰り返すことにより真の値に収束させることが期待できます.このように,解析的に解けない問題を近似の繰り返しによって真の値に近づける手法はコンピュータにとって最も得意な分野ですし,アプリケーションプログラムにまかせることにしましょう.
その方法のテクニカルな面についてはすでに多数の成書・論文に紹介されているので詳細は記しませんが,最尤法は最も尤もらしい推定量をコンピュータを用いて計算する方法だと理解しておけば,本稿のフィロソフィーを理解するには十分でしょう.ただし,数値計算上の振る舞いの悪い確率分布関数においては単純なニュートン法では解が得られず,特殊な工夫が必要になることを付記しておきます.
===================================
【最尤法による区間推定】
(1)フィッシャーの情報行列
最尤推定値の信頼区間は,フィッシャーの情報行列(Fisher's information matrix)を使って,近似的に求めることができます.フィッシャーの情報行列とは,フィッシャーの情報量の多次元版で,
I(θ)={Ijk}=-{E(∂2L/∂θj∂θk)}
で定義されるmxmの正方行列です.ここで,E[∂2L/∂θj∂θk]は対数尤度の2階偏微分:∂2L/∂θj∂θkの期待値を示します.Iはinformationの略号です.
フィッシャーの情報量は,本来,偏微分の積を使って
I(θ)=E[∂logf(x)/∂θj∂logf(x)/∂θk]
で定義されるのですが,
E{∂logf(x)/∂θj]=0,E[∂logf(x)/∂θk]=0
より,2階偏微分行列
I(θ)=-{E(∂2logf(x)/∂θj∂θk)}
のほうが計算には便利です.すなわち,フィッシャー情報量とは,あるデータが観測されたとき,パラメータθの変化に対して密度関数の対数がどれだけ変化するのかをその大きさを2乗でとり,確率分布について平均したものです.変化の大きい方が推測しやすいだろうと考えられるというわけです.
この行列の逆行列{I(θ)}^(-1)は分散共分散行列であって,その対角要素はパラメータの精度を与える重要な性質をもっていて,パラメータθiの最尤推定量の分散は
Var[θi]=[{I(θ)}^(-1)]ii=(Δθi)^2
と表されます.分散共分散行列{I(θ)}^(-1)はすべてのパラメータが独立と考えられる場合は対角行列,また,パラメータ間に強い相関がある場合には非対角要素は無視できなくなり対称行列となります.
しかし,一般に期待値(フィッシャーの情報行列)の計算は困難で,期待値の代わりに実際に得られた観測値(ヘシアン)を用いることになります.すなわち,
C(θ)={Cjk}=-{∂2L/∂θj∂θk}
をフィッシャーの情報行列の代用とするのです.cはcurvature(曲率)の略号で,期待値の代わりに観測値を用いることによって,精度がどのようになるかは,たとえばEfron and Hinckley(1978)を参照されたい.
《例》
もう一度,正規分布の場合に戻って,パラメータの標準誤差Δμ,Δσを求めてみることにしましょう.フィッシャーの情報行列がどうなるかというと
∂2L/∂μ2=-n/σ2
∂2L/∂μ∂σ=-2Σ(xi-μ)/σ3=0
∂2L/∂σ2=-3Σ(xi-μ)2/σ4+n/σ2=-2n/σ2
ですから,
C={n/σ2 0 }
{0 2n/σ2}
したがって,分散共分散行列は
C^(-1)={σ2/n 0 }
{ 0 σ2/2n}
対角要素がそのパラメータの標準誤差ですから,
Δμ=σ/√n
Δσ=σ/√2n
となります.また,正規分布の場合,∂2L/∂μ∂σ=0より,μとσの間には相関は存在しません.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
(2)クラーメル・ラオの不等式
真の母数分布を得るには,それぞれの確率モデルのもとで母数の分布を求める必要がありますが,組合せ数の大きさからいって,このことは非現実的であり,nが大きいときの漸近分布を用いることになります.実は,最尤推定量は漸近的に正規分布にしたがう,すなわち,母数θの母分布がたとえ正規分布でなくとも,データ数が多ければ近似的に正規分布からの標本とみなすことができます.これを漸近正規性(asymptotic normality)といいます.
また,分布形f(x;θ)が与えられたとき,それを規定しているパラメータθの不偏推定量のうちで,分散最小の推定量は最小分散不偏推定量と呼ばれ,よい推定量であるとみなされます.したがって,分散の小さい推定量を探してくることが計算統計学の1つの課題となりますが,それでは,分散はどこまで小さくなるのでしょうか? 実はこれには下限があり,クラーメル・ラオの不等式の下限(Cramer-Rao bound:CRB)より小さくはできません.
クラーメル・ラオの不等式は
Var[θ]≧1/nI(θ)
で表されます.ここで,I(θ)はフィッシャー情報量と呼ばれることは前述したとおりです.また,CRBに達する推定量を有効推定量といいますが,母数の誤差Var[θ]はこれ以上小さくはできないのです.
《例》
実際に,正規分布N(μ,σ2)において,位置母数μと尺度母数σ2のフィッシャー情報量を計算すると
I(μ)=1/σ2,
I(σ2)=1/2σ4
となり,
Var[μ]≧σ2/n
Var[σ2]≧2σ4/n
が示されます.
母集団が正規分布N(μ,σ2)に従うとき,
E[x]=μ
より,標本平均は母平均μの不偏推定量であり,また,
V[x]=σ2/n
より有効推定量ですから,あらゆる不偏推定量のなかで分散が最小です.したがって,正規分布の平均を推定するには,標本平均が一番よい推定量となります.
一方,標本不偏分散:u2=Σ(xi-x)^2/(n-1)は,
E[u2]=σ2
より,母分散σ2の不偏推定量ですが,
V[u2]=2σ4/(n-1)>2σ4/n
より有効推定量ではありません.
標本数nが大きくなると,最尤推定量の分散は,クラーメル・ラオの下限にするという性質があります.最尤推定量のこの性質を漸近有効性(asymptotic efficiency)といいます.すなわち,最尤法の定量的性質とは漸近有効性のことであり,統計学において母数を推定するのに用いられる最尤法は,漸近的に最小分散不偏推定量と同じ振る舞いをみせる推定量を与えてくれるのです.
ただし,一様分布にはクラーメル・ラオの不等式成立の前提たる正則条件が満足されていないので,クラーメル・ラオの結果を適用できません.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
(3)最尤推定値の信頼区間
以上述べたように,最尤推定量は一般に漸近正規性と漸近有効性が成り立ちます.この性質を利用して,最尤推定値の信頼区間(confidence interval)を求めてみましょう.
漸近有効性と漸近正規性を考慮すると,標本数nが大きいとき,母数θの100(1-α)%両側信頼区間は,
θ±u(α/2)Δθ
によって与えられることになります.u(α/2)は正規分布の片側100xα/2%点です.しかし,母数の分布が漸近的に正規分布であるといっても,標本数は常に大きいとは限りません.
母数の分布は厳密に正規分布ではありませんが,幸い,それに近い分布密度になりますから,このような場合,母数の分布としてt分布を想定するのが常套手段です.t分布は自由度ν→∞の場合は正規分布を表わしますから,正規分布を一般化したものと考えることができます.したがって,標本数が小さい場合も考慮して,θの100(1-α)%両側信頼区間を
θ±t(α/2,n-m)Δθ
とします.ここで,t(α/2,n-m)は自由度n-mのt分布の片側100xα/2%点で,u(α/2)より少し広めに信頼区間を設定したことになります.自由度をn-mとしたのは不偏性への対処ですが,厳密正規性でなく,漸近正規性しか仮定できない場合は,この方法が一般的に行われています.
なお,漸近正規性を有する分布はt分布ばかりではありません.自分で新たな漸近正規分布を考案することさえ可能なのです.たとえば,自由度n−1のt分布
h(t)=1/√π(n-1)Γ(n/2)/Γ((n-1)/2){1+t2/(n-1)}^(-n/2)
を横軸方向に伸ばした形の
h'(t)=1/√πnΓ(n/2)/Γ((n-1)/2){1+t2/n}^(-n/2)
も漸近正規性を有します.とりあえず,この分布のことをt’分布と名付けますが,t’分布はt分布よりさらに幅の広い分布ですから
θ±t'(α/2,n-m)Δθ
とおくと,さらに広めに信頼区間を設定したことになります.t'(α/2,n-m)値はt(α/2,n-m)値から簡単に換算できます.期待値の代わりに観測値を用いているわけですから,t’分布を用いるべきかもしれませんが,少し控えめすぎることもあって,この方法は一般的には行われていません.
繰り返しますが,最尤法で求めた母数θjの分布形は,厳密にいうと正規分布になるとは限りません.ですから,各母集団分布形ごとに母数分布を用意する必要が生じますが,この組合せの数は極めて多数となり,その分布も特殊なものになります.
母数の正確な分布を求めることはnを適当な大きさにしてもたいそう労力を要することであり,精密な式は少数の例外を除いて求められそうにありません.したがって,信頼区間についてはっきりした議論をしようと思ったら,合わせる関数形ごとにシミュレーションで母数の分布を調べたほうが安全ということになります.
しかし,厳密に正規分布ではないもののそれに近い分布に対しては,それが正規分布するとみなして近似的に求めることができるというのが,ここでの議論です.正規近似の結果,精密度の概念はいくらかぼやけてきますが,実際問題として,母数の分布が極度に非正規であることは少なく,少し広めに信頼区間を設定すればよいわけで,一部は経験的・習慣的考えに基づき,一部は理論的な考えに基づいて議論を展開しました.
《例》
酵素活性の測定値(データ数:66)に対して,最尤法を適用する.この標本分布は正にゆがんでいて,正規性検定で正規性が棄却された.経験的にワイブル分布に従うことがわかっていたので,ワイブル分布
f(x)=α/β(x/β)^(α-1)exp{-(x/β)^α}
をフィットさせることにした.カーブフィッティングはプログラム「麦」を用いて行ったが,以下,その出力結果を抜粋する.
基本統計量
No. = 66
MEAN= .622273 25% QUARTILE= .3725
S.D.= .395217 50% QUARTILE= .535
S.E.= .0486478 75% QUARTILE= .8075
MIN = .04
MAX = 1.89
正規性の検定
SKEWNESS= 1.10924
TEST of SKEWNESS= 3.79127 ( P<0.001 ) ( P= 3.23653E-04 )
KURTOSIS= 3.94689
TEST of KURTOSIS= 1.92326 ( N.S ) ( P= .0540142 )
適合度の検定
PEARSON CHI-SQUARE TEST
CHI^2= 9.94099 ( N.S ) ( P= .191118 )
KOLMOGOROV-SMIRNOV TEST
K-S= 4.34551 ( N.S ) ( P= .632775 )
NEYMAN SMOOTH TEST
SUM of MOMENTS= 3.5636 ( N.S ) ( P= .470154 )
2-母数 ワイブル分布 (最尤法)
[ DEFINED EQUATION ]
Y= P(1)/P(2)*(X/P(2))^(P(1)-1)*EXP(-(X/P(2))^P(1))
母数とその95%信頼区間
P(1)= 1.66465 S.E.= .155871 1.35316 - 1.97614
P(2)= .698308 S.E.= .0545193 .589357 - .807259
「麦」の出力結果をみると,形状母数α=p(1),尺度母数β=p(2)が求められていて,同時にこれらの値の推定誤差も計算されている.形状母数,尺度母数の最尤推定量±標準誤差はそれぞれ1.66±0.156,0.698±0.0545となった.
===================================
【中心極限定理との比較】
正規分布では母平均μが位置母数とズバリ一致しますが,分布によっては母平均が明示的に表されず,母数(θ1,θ2,・・・,θm)の関数として演算加工されることがあります.たとえば,ワイブル分布はそのような例になっています.
その場合,足したり掛けたりする相手にも誤差があると,もともとの母数がたとえ正規分布であっても,演算結果は正規分布とは似ても似つかない分布になることがあります.たとえば,標準正規分布をする変数同士の積は第2種変形ベッセル関数(母平均0,母分散1),標準正規分布をする変数同士の商はコーシー分布(母平均も母分散も定義できない)になります.そのような場合の誤差の取り扱いに,誤差伝播の法則(propagation of error)を用いてみます.
(1)誤差伝播の法則
正規分布以外の母集団にとっても,母平均は特別な意味をもつ位置情報の指標ですが,もし,母平均に興味があるならば次のようにして母平均の漸近分散を求めることができます.平均値μが2つの母数θ1,θ2の関数:μ=f(θ1,θ2)のような関数関係があるとしましょう.θ1とθ2の誤差をそれぞれΔθ1,Δθ2とすると,このとき,平均値μの誤差Δμは
(Δμ)^2
=(∂f/∂θ1Δθ1+∂f/∂θ2Δθ2)^2
=(∂f/∂θ1)^2(Δθ1)^2+(∂f/∂θ2)^2(Δθ2)^2
+2(∂f/∂θ1)(∂f/∂θ2)Δθ1Δθ2
=(∂f/∂θ1)^2varθ1+(∂f/∂θ2)^2varθ2
+2(∂f/∂θ1)(∂f/∂θ2)cov(θ1,θ2)
で与えられるというのが誤差伝播の法則です.これはf(θ1,θ2)を点(θ1,θ2)のまわりでテイラー展開すれば簡単に証明できます.
教科書にある誤差伝播の法則では,右辺第3項が省かれて記載されていることが多いのですが,通常,確率密度関数の母数θ1,θ2間には通常強い相関があり,右辺第3項を省略すると誤差が過大に評価されます.したがって,母数θの誤差Δθを求めるには,右辺第3項を省略してはなりません.また,varθ1,varθ2,cov(θ1,θ2)は尤度方程式の分散共分散行列より求めることができます.
var(θi)=(Δθi)2={I^(-1)}ii
cov(θi,θj)={I^(-1)}ij
r=cov(θi,θj)/√(varθi*varθj)
この式は,いわば誤差の分散公式
σ2(x+y)=σ2(x)+σ2(y)+2rσ(x)σ(y)
であって,z=x+yとするとz軸方向の合成分散をx軸,y軸の2つの方向に分解すると考えることができます.2つの母集団の母数間には相関はないので,母数の差の検定では
(Δθ)^2=(∂f/∂θ1)^2(Δθ1)^2+(∂f/∂θ2)^2(Δθ2)^2
式で大丈夫です.この式は,余弦定理を特殊化して得られるピタゴラスの定理をにあたるわけですが,これより,母数の差θ=θ1−θ2の誤差Δθについては
(Δθ)^2=(Δθ1)^2+(Δθ2)^2
が成り立つことが容易に理解できるでしょう.
誤差の伝播法則は近似式であって,正確な不偏推定値とはいえません.もしも,θ1とθ2が厳密に正規分布に従い,その関数μ=f(θ1,θ2)が簡単な関係式で表されるときは誤差の伝播公式よりも正確な誤差の伝播式を求めることは可能です.しかし,この公式のほうが分布の形にかかわらず成立するので利用価値は高いと考えられます.ただし,θ1,θ2の分布がコーシー分布になる場合は分散が無限大になるので,この関係は適用できません.また,μが母数θ1のみの関数あるいは三つ以上の母数の関数のときも同様に扱うことができます.
《例》
ワイブル分布の平均値は,
μ=βΓ(1+1/α)
で計算されます.前例より,α±Δα,β±Δβはそれぞれ1.66±0.156,0.698±0.0545と既知であり,これから母平均の信頼区間μ±Δμを求めてみましょう.その場合,αとβには相関があり,右辺第3項を省略せずに誤差伝播の式を用います.
(Δμ)2=
={-β/α2Γ’(1+1/α)}^2(Δα)^2+{Γ(1+1/α)}^2(Δβ)^2+
2{-β/α2Γ’(1+1/α)}{Γ(1+1/α)}cov(α,β)
Δα,Δβは,次の分散共分散行列の対角要素,cov(α,β)は非対角要素で与えられます.
分散共分散行列
P(1) P(2)
------------------------------------------
P(1) .0242958 2.72704E-03
P(2) 2.72704E-03 2.97235E-03
「麦」では,
平均値とその95%信頼区間
mean= .624006 S.E.= .0474786 .529125 - .718887
すなわち,μ±Δμ=0.624±0.0475と算出されました.
一方,中心極限定理を用いると
極限定理による95%信頼区間
mean= .624006 S.E.= .047405 .529272 - .71874
より,μ±Δμ=0.624±0.0474であり,ほぼ一致した結果が得られました.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
(2)少数例の場合
前項での議論は,漸近理論を用いているので,データ数が少ないときが問題になります.そこで,n=6の場合を検討してみました.
《例》
2-母数 ワイブル分布 (最尤法)
[ DEFINED EQUATION ]
Y= P(1)/P(2)*(X/P(2))^(P(1)-1)*EXP(-(X/P(2))^P(1))
母数とその95%信頼区間
P(1)= 1.43779 S.E.= .48563 .0922074 - 2.78337
P(2)= .841819 S.E.= .251024 .146283 - 1.53736
平均値とその95%信頼区間
mean= .7642 S.E.= .219454 .156137 - 1.37226
極限定理による95%信頼区間
mean= .7642 S.E.= .220283 .15384 - 1.37456
この場合も,最尤法で求めた母平均と誤差の値:μ±Δμ=0.764±0.219が,中心極限定理を用いた値:μ±Δμ=0.764±0.220と非常によく一致しました.もちろん,これは偶然の一致ではありません.このような検討から,最尤推定量は,非常に速く最小分散不偏推定量に近づくことがわかります.
以上のことから,母集団分布が正規分布でなくとも,最尤法と誤差伝播の法則を用いることによって,中心極限定理と等価な結果が導かれることが示されました.中心極限定理の容貌とクラーメル・ラオの不等式の顔つき目鼻立ちは似ても似つかないものですが,得られた結果は同一と考えられるのです.
===================================
【中心極限定理を超えて:beyond central limit theorem】
これまで母平均の最尤推定量について述べてきましたが,それは,正規分布以外の母集団にとっても,母平均は特別な意味をもつ位置情報の指標と考えられたからです.しかし,母分散に興味がある場合や分布の形に興味がある場合だってあるでしょう.母平均の漸近分布は中心極限定理で表されましたが,母分散等については中心極限定理の適用外です.その点,最尤法では母分散などの漸近分散も求めることができます.
《例》
分散値とその95%信頼区間
variance= .148318 S.E.= .0277047 .0929529 - .203683
また,コーシー分布はt分布において自由度1としたものであり,平均値は定まらず分散が無限大になる厄介な分布です.平均や分散をもたない確率分布については,中心極限定理が成り立ちません.しかし,
a)コーシー分布では平均値は定まらなくても中央値,最頻値はμである
b)標本平均値の分散は無限大であるが,標本中央値はμ,標本中央値の分散は有限の値となる
ことから,コーシー分布に最尤法を適用すると,以下のような結果が得られました.
《例》
2-母数 コーシー分布 (最尤法)
[ DEFINED EQUATION ]
Y= 1/PI*P(2)/((X-P(1))*(X-P(1))+P(2)*P(2))
母数とその95%信頼区間
P(1)= .500307 S.E.= .0356579 .429049 - .571565
P(2)= .188778 S.E.= .0313438 .12614 - .251415
中央値とその95%信頼区間
median= .500307 S.E.= .0356579 .429049 - .571565
極限定理による95%信頼区間
median= .500307 S.E.= .0365004 .427365 - .573249
標本中央値の分散は標本の大きさnを大きくすると小さくなることが示されますが,この場合も,最尤法で求めた漸近分散.0356579と中央値に関する極限定理による漸近分散.0365004とがほぼ一致しています.
【補】標本中央値の漸近分布
正規母集団以外であっても,その母平均,母分散をそれぞれμ,σ2として,標本平均値の分布が漸近的に正規分布N(μ,σ2/n)になることは高校の教科書にも取り上げられて,標本平均値についての統計的性質は「中心極限定理」としてよく知られています.しかし,標本中央値の漸近分布を取り上げたものは少ないようです.以下では,標本中央値に関する極限定理
「母集団のメジアンをμmとすると,メジアンの分布は漸近的に正規分布N(μm,1/{4n[f(μm)]^2})になる」
ことを証明していきます.
(証明)
xがg(x)=(2m+1)!/(m!)2F(x)^m{1-F(x)}^mf(x)にしたがうとき,
u=(x-μm)/√(1/{4n[f(μm)]^2})=2√nf(μm)(x-μm)が漸近的にN(0,1)にしたがうことを示せばよい.
uの確率密度関数は,x=u/2√nf(μm)+μm,dx=du/2√nf(μm)より,
h(u)du=g(x)dx=g(u/2√nf(μm)+μm)/2√nf(μm)du
h(u)=g(u/2√nf(μm)+μm)/2√nf(μm)
=(2m+1)!/(m!)2*{∫(-∞,u)f(t)dt*∫(u,∞)f(t)dt}^mf(u/2√nf(μm)+μm)/2√nf(μm)
ここで,n→∞のときの極限を考える.スターリングの法則
m!=√2πm^(m+1/2)exp(-m)
(2m+1)!=√2π(2m+1)^(2m+3/2)exp(-2m-1)
を使って簡約化すると
(2m+1)!/(m!)2→1/√2π*√n*2^n
また,積分学における第1平均値定理により
{∫(-∞,u)f(t)dt*∫(u,∞)f(t)dt}^m
=2^(-2m){1-[uf(ξ)]2/n[f(μm)]2}^m→2/2^nexp(-u2/2)
f(u/2√nf(μm)+μm)/2√nf(μm)→1/2√n
したがって,h(u)→1/√(2π)exp(-u2/2)〜N(0,1)
さらに進んで,F(q)=pなる統計量qの漸近分布はN(q,p(1-p)/{n[f(μm)]^2})となることを示すこともできる.ここで,p=1/2とおくと中央値の漸近分布,p=1/4とおくと第1四分位数の漸近分布が得られる.
===================================
【母数の差の検定】
各種母数とその標準偏差(標準誤差)がも求まったわけですから,つぎに,母数間の差を検定したいというのは当然の成りゆきというものでしょう.すなわち,ここで取り上げることは,平均値の差の検定の一般化ですが,これにより,平均値のみならず,中央値や分散,分布形などが等しいかどうかを同じ枠内で独立に検定することも可能になり,守備範囲が一層広くなります.
(1)準ウェルチ検定(擬ウェルチ検定)
まず最初に,2標本問題:データ数n1,n2個の2組の測定値があって,最尤法によってその母集団の母数がそれぞれθ1,θ2,その標準誤差がΔθ1,Δθ2と推定された場合のことを考えてみます.もし,母集団が正規分布であり,関心のある母数が平均値に一致する位置母数であるならば,2つの母集団の母数θ1,θ2に差があるかどうかを問う検定は,通常用いられている2群の平均値の差の検定になりますから,この節では平均値の差の一般化について考えることになります.
母分布が正規分布の場合に倣って,母数の差(θ1−θ2)の誤差Δθについて考えてみることにします.母数θ1,θ2に差があるかどうかを問う検定は,その分布型や母数と誤差の独立性を考慮に入れず,単純に考えると,100(1-α)%信頼限界:
(θ1−θ2)±k(α)Δθ
が0を含んでいるかどうかという問題に還元されそうです.一般に,測定回数が違っているうえに,標準誤差Δθ1,Δθ2も等しいとは限りません.
Δθの求め方として,素朴に,
|Δθ|=|Δθ1|+|Δθ2|
としてある本もありますが,この求め方は便宜的・作為的で理論的な裏付けがあるわけではありません.もう少しつじつまがあっていて,しかもいろいろな場面の応用できるましな方法<誤差伝播の法則>を使って求めることにします.
前述したように,誤差伝播の法則はθ1,θ2が正規母集団からの標本でない場合でも使えて,
(Δθ)^2=(Δθ1)^2+(Δθ2)^2
になります.これは幾何学的にいえば,ピタゴラスの定理にほかなりません.誤差伝播の公式は,正規母集団からの標本でなくても,また,互いに独立に違った回数だけ測定して誤差Δθ1,Δθ2を求めた場合でも,近似的には使えます.ただし,測定回数が違うときΔθは不偏分散にはなりません.測定回数が違うときの不偏分散を出すのはかなり困難です.
母数θ1,θ2の分布が漸近正規性をもつことから,母数の差θ1−θ2に対しても漸近正規性が成立すると仮定することは自然です.そこで,k(α)はウェルチのt検定に倣って,近似的に
k(α)=t(df',α/2) df'<df
とおくことができると仮定します.ここで,dfはウェルチのt検定の際の自由度ですが,df'<dfとし,信頼区間を広めにとれば,母数θ1,θ2には漸近正規性しか仮定できない場合も使用可能と考えられます.
そこで,
|θ1−θ2|≧t(df',α/2)*√(Δθ1)^2+(Δθ2)^2
df'={(θ1)^2+(θ2)^2}^2/{(Δθ1)^4/(n1-m)+(Δθ2)^4/(n2-m)}
なる統計検定法を考えることができます.
この検定法は,ウェルチの近似法:
t=|m1-m2|/√{u12/n1+u22/n2)}≧k
k(α)=t(df,α/2)
df={u12/n1+u22/n2)}^2/{u14/n12(n1-1)+u24/n22(n2-1)}
において,mをθに,u2/nをΔθに,n-1をn-mに置き換えるアナロジーになっています.これを,ウェルチのt検定と区別するために,本稿では準ウェルチ検定と呼ぶことにします.さらに,t分布の代わりにt’分布を用いれば,一層安全になるでしょう(m→θ,u2/√n→Δθ,n-1→n-m,t→t').
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
(2)準ウェルチ型分散分析
この節では,3群以上の母数の比較のために,ウェルチの分散分析・多重比較を拡張しておきます.非正規分布用の準ウェルチ検定をg群(g>2)の場合に拡張するために,まず,準ウェルチ検定式の各辺を2乗してみましょう.
{t(df,α/2)}^2=F(1,df,α)ですから,2群比較のための準ウェルチ検定は
(θ1−θ2)^2/{(Δθ1)^2+(Δθ2)^2}≧F(1,df,α)
と同値です.そこで,ウェルチの分散分析に倣って,2群の場合を含んで,3群以上のg群に拡張させると
θ={Σθi/(Δθi)2}/{Σ1/(Δθi)2}
W=Σ(θi−θ)2/(Δθi)2
[1+2(g-2)/(g2-1)Σ1/(ni-m)(1-1/(Δθi)2/Σ1/(Δθi)2)^2]-1*w/(g-1)≧F(g-1,df',α)
が得られます.ただし,
1/df'=3/(g2-1)Σ1/(ni-m){1-1/(Δθi)2/Σ1/(Δθi)2}2
で与えられます.これを準ウェルチ型分散分析と呼ぶことにしますが,F分布の代わりにF’分布を用いることも可能でしょう.
【補】サタースウェイトの等価自由度
2群の場合,ウェルチのt検定とサタースウェイトの方法と呼ばれる検定は同じものです.しかし,サタースウェイトの等価自由度は
1/df'=Σ(Δθi)^4/(ni-m)/{Σ(Δθi)^2}^2
で計算され,3群以上ではウェルチ流の自由度とサタースウェイト流の自由度は異なった値を与えます.
多重比較における自由度の求め方には,ウェルチ流の求め方とサタースウェイト流の求め方の2つの方法が考えられますが,この2つを比較してみると,サタースウェイトでは群の数が増えるにつれて自由度が急激に増していきます.この結果は到底容認できるものではありません.一方,ウェルチでは自由度が徐々にふえ,5群くらいまでであれば,2群の場合とそれほどの差はみられません.このことからも多群比較にはウェルチの方法が適していると考えられました.
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
(3)準ウェルチ型多重比較
もし特定の一組に限って比較するならば,その判定基準は
|θi−θj|≧t(df',α/2)*√(Δθi)^2+(Δθj)^2
となりますが,これは厳密な意味では多重比較ではありません.最も簡便な多重比較法として,ボンフェローニ法があります.この方法では,比較する組合せの数をhとした場合に,ボンフェローニ(Bonferroni)の不等式を用いて,α→α/h,または,より正確なシダック(Sidak)の方法を用いて,α→1-(1-α)^(1/h),とおきます.すなわち,
|θi−θj|≧t(df',α/2h)*√(Δθi)^2+(Δθj)^2
|θi−θj|≧t(df',{1-(1-α)^(1/h)}/2)*√(Δθi)^2+(Δθj)^2
かどうかを調べて検定することになります.ここで,もし,すべての組合せに興味がある場合は,総あたり比較ですから,h=gC2=g(g-1)/2となります.これをTukey型多重比較とよびます.また,対照群とその他の群の比較に興味がある場合は,h=g-1となります(Dunnet型多重比較).
また,対比較のみならず,線形比較にも興味がある場合は,Scheffe型多重比較を行います.Scheffe型多重比較は
|θi−θj|≧√(g-1)F(g-1,df',α)*√(Δθi)^2+(Δθj)^2
で表されます.g=2の場合は,t(df',α/2)=√(g-1)F(g-1,df',α)ですが,g>2ではt(df',α/2)>√(g-1)F'(g-1,df',α)ですから,Scheffe型多重比較はTukey型多重比較よりも棄却されにくくなります.
【補】多重比較数
分散分析では,帰無仮説「すべての群において,母数は等しい」を同時検定しますが,もしそこで有意の結果が得られたならば仮説は棄却され,「すべての群に等しいというわけではない」すなわち母数の異なる群が存在していると判断し,次には多群のうち1群だけが他の群と違っているのかすべての群がそれぞれ異なるのかなどを比較します.これが,多重比較と呼ばれる解析法で,種々の多重比較法が提案されています.
3群以上で多重比較を行うとき,次の場合を区別しておく必要があります.
a)あらかじめ決めておいた特定の1対に限定して比較する(フィッシャー法)
b)対照群と他群を対にして比較する(ダネット法)
c)2群を対にして,すべての対について比較する(チューキー法)
d)2群の比較ばかりでなく,任意の群を合併したものを含め,すべての対比を行う(シェフェ法)
たとえば,5群の平均値μ1,μ2,μ3,μ4,μ5の比較を考える場合,μ3-μ4のような1対1の対比(対比較)のみならず,(μ1+μ2+μ3)/3-(μ4+μ5)/2のような3対2の対比が必要になることもあります.すなわち,多重比較には対比較を線形比較の2種類の方法があり,対比較にはフィッシャー法(特定の比較),ダネット法(基準との比較),チューキー法(あらゆる対の比較)などがあり,線形比較のための検定法として,シェフェ法(あらゆる比較)があります.
g群の多重比較の場合,対比する組合せ数を求めると,フィッシャー法で1,ダネット法でg−1,チューキー法で,nC2=g(g-1)/2,シェフェ法では(3^g+1)/2-2^g 通りになります.チューキー数は多項式関数的に増加しますが,シェフェ数は意味付け可能な組合せだけでも,指数関数的に増加することが理解されます.
多重比較 3群 4群 5群 6群 g群
フィッシャー数 1 1 1 1 1
ダネット数 2 3 4 5 g-1
チューキー数 3 6 10 15 g(g-1)/2
シェフェ数 6 25 90 301 (3^g+2^(g+1)+1)/2
===================================
【尤度比検定との比較】
ここで取り上げた最尤法にもとづく方法により,母数の同時比較から,その後の多重比較まで一連の流れの中で行うことができることがおわかり頂けたでしょうか.少々専門的になって恐縮ですが,この方法はワルド統計量と呼ばれる範疇に属するものです.この節では,最尤法にもとづく検定(ワルド統計量)と尤度比検定(尤度比統計量)の性能比較をしてみますが,結論から先に述べると,尤度比検定ではせいぜい母数の同時一括比較までであって,多重比較などそれから先のステップには簡単には進めそうにありません.
尤度比検定とは,非正規分布に対してある種の仮説検定をする際に用いられるもので,点推定論における最尤推定法に対応するものと位置づけられます.両者のもっとも大きな違いは,尤度比検定はあくまでも検定指向であるのに対し,最尤法は推定から検定まで取り扱うことができ,しかも,推定過程で推定のよしあしを視覚的に確認できるという点です.最尤法では,この長所により想定した分布が不適当か否かを検定に先立ってチェックできることになります.
一方,尤度比検定の長所は,観測値の母集団分布が正規分布や指数分布のとき,尤度比検定は簡単な形になり,観測値を用いて数式的に明示することができる普遍的な検定方式を提供してくれる点にあります.とくに,正規分布母集団のとき,尤度比検定はスチューデントのt検定や分散比のF検定など最適な検定手法を導き出するための指導原理となっていて,様々のよい性質を有していると考えられます.
しかし,尤度比検定は,母分布が正規分布の場合であっても,ベーレンス・フィッシャー問題(σ12とσ22が全く未知であるという現実的条件下で仮説μ1 =μ2 を検定する2標本問題)に対しては無力であり,はなからウェルチの近似法などに頼らざるを得ません.また,仮定する分布が正規分布や指数分布以外の任意の非正規分布になると,尤度比検定では解析的な解を与えることができなくなります.
このように,尤度比検定は解析的に解ける場合はよいのですが,そうでないとき,数値近似的に解く必要がでてきます.プログラムを利用して,数値的に解く場合を考えてみると,尤度比検定の計算は,制約条件なしの最尤法の部分と制約条件つきの最尤法の部分からなっていて,これをシンボリックに書くと
対数尤度比統計量=ラグランジュ乗数法統計量(制約あり)
+ワルド統計量(制約なし)
という図式になります.すなわち,尤度比統計量は制約なし最尤推定量と制約あり最尤推定量法の両方を用いる必要がありますが,ワルド統計量(本稿で述べてきた最尤法に基づく検定)では制約なし最尤推定量のみを,ラグランジュ乗数法統計量では制約つき最尤推定量のみを用いているというわけです.
このことから,尤度比検定ではおおまかにいって最尤法の手順を2回繰り返して数値計算することになります.もっと詳細に述べると,たとえば,ウェルチのt検定と同じ2標本問題の場合,尤度比検定ではデータの併合が必要になることに加えて,4母数問題を解いてから3母数問題を解くことになり,プログラムを利用したとしてもその手順は非常に煩雑です.一方,最尤法にもとづく検定ではデータの併合は不要で,かつ,2母数問題を2回繰り返すだけで済みますから,尤度比検定のほうが煩雑になることは明らかです.
にもかかわらず,最尤推定量にもとづく検定と尤度比検定はともに漸近最良検定になる,すなわち,2つの検定は漸近的に同値であることが示されています.このあたりの事情は,データ数が半分になっても推定値の信頼区間が2倍にはならないこととよく似ていて,1種の等価原理と考えられますが,手順が半分であっても,同格である点は強調に値するでしょう.
次に,プログラムを作成する立場で考えると,尤度比検定では,分布ごとにかつ仮説の対象となる母数ごとにそれに対応した専用プログラムを用意する必要がでてきます.しかし,尤度比検定のプログラム化は分布型がいろいろあるうえに,さらに各分布にはいろいろな母数が含まれていて,分布と母数の組合せ数の大きさからいって,実用に供するにはほど遠く,実質的には作成困難と思われます.
一方,最尤推定量は漸近正規性,漸近有効性という非常に望ましい性質をもっていて,この性質を活用すると,非正規分布の問題を正規分布の問題に還元できるため,検定方式をよく知られたウェルチの方法に少し手を加えるだけで作成できますし,最尤法の基本的骨格となるプログラムも非線形最小2乗法の評価関数を修正することによって作成可能となります.そのため,最尤法にもとづく検定では,手順が尤度比検定の約半分で済むという運用上のメリットに加え,尤度比検定のように,専用プログラムを使わなくとも,たったひとつの汎用プログラムの使用で母数の差の検定が可能となるメリットは極めて大と考えられます.
尤度比検定の性能自体は,最尤法にもとづく検定と漸近的に同値になるのですが,プログラムを使用する立場,プログラムを作成する立場のいずれからみても,尤度比検定は極めて実用性が乏しいといわざるを得ません.正規分布・指数分布を対象とした1標本問題ならばともかく,任意の非正規分布を取り扱う際,殊に多標本問題に対して,尤度比検定が実際に使われることはまずないでしょう.母分布に対応した検定を行うためには,最尤法によらなければならないと考えられた所以です.
===================================
【非正規分布の取り扱いの現状】
近年,自然界の法則については,線形現象よりも非線形現象,決定論的現象よりも確率論的現象が多いということが,徐々に理解されるようになってきて,次第に複雑なものが求められるようになってきました.その流れの中で,データに何らかの結論を導くための分布をあてはめるとき,正規分布に代わって,各種非正規分布をあてはめることが要求されることが多くなりました.
一般的に,正規分布・指数分布以外の任意の分布を仮定した場合には,統計量θの分布を正確に求めることは不可能であり,そのような場合には標本の大きさnが大きいときの近似理論が用いられます.とはいっても,任意の母分布に対して効率のよい推定・検定を行うという試みは,実質的には困難とされてきました.それには2つの理由が考えられます.
ひとつには,確率分布関数は,
a)一部の例外を除き非線形関数である
b)特殊関数を含んでいることが多い
c)性質の良い関数もあるが,往々にして数値計算上の振る舞いが悪く,それが非線形性と相まって,特殊な工夫を加えないと解が得られない
という厄介な数学的特徴をもっているため,非正規分布の取り扱いは非常に煩雑となるからです.たとえ必要に迫られたとしても,実用プログラムがなければ到底考えられない問題であって,コンピュータプログラムが開発され,実装化されて初めて可能になります.
もうひとつには,いまある統計理論は非実用的であって,非正規分布に対して具体的な公式を提示し伝えるまでに至っていないためであると考えられます.たとえば,統計学においてもっともよく使われる検定は「平均値の差の検定」ですが,通常行われているパラメトリック検定は母集団分布が正規分布であることを前提としています.また,平均値の差の検定において,正規性が満たされない場合は,ノンパラメトリック検定が行われますが,厳密にいうとノンパラメトリック検定であっても比較する群は同分布であることを要請します.
ところが,正規分布であるという仮定や同分布であるという仮定も満たされないデータの場合,分布型がいろいろあるかもしれないという可能性だけを詳しく論じても仕方がないので,非正規分布に対しても,正規分布に適用される方法が適用限界を無視して無批判に使われているというのが現状となっています.その際,現行の検定の適用限界を知りつつも,t検定は正規分布でなくてもある程度頑健であるなどの理由付けを行って,仕方なく使っている良心的な実務家もいるでしょうが,大概は,検定の前提条件に抵触することさえ気づかずにコンピュータの出力結果を鵜呑みにするだけの闇雲運用が甚だ多いものと思われます.
このような理由から,データ解析に関わる多くの実務家は,現在の数理統計学に対して,正規分布という呪縛を感じています.正規性を重視する数理統計学の理論と実際の応用の場との間には,かなりの乖離があることがおわかりいただけましたでしょうか.非正規分布に対する取り扱いが必要とされる所以ですが,結局,これらの疑問に応えるには,母分布に対応した検定法が必要と考えられました.
しかながら,正規分布以外の確率分布は無数にあり,母数も位置母数に限らず尺度母数や形状母数などがあげられます.任意の非正規分布を対象とするためには実用的なコンピュータプログラムがなければ到底考えられない問題ですが,これまでのところ,非正規分布に対するその種のサポート体制は非常に手薄であって,実際に運用することは不可能とみなされてきました.
そこで,小生は実用性の高いコンピュータプログラムの開発に取り組み,現在では200種類を超える確率分布に対応した最尤法プログラム「麦」を提供しています.本稿は,そのプログラムを使用して母集団分布が非正規分布となる場合の平均値の差・母数の差の2群比較・多群比較などに対して,最尤法によるアプローチを試みたものですが,換言すると,ここで取り上げた最尤法にもとづく方法は,現実のデータ解析に重点を置いたadaptive, application-orientedの統計的方法であり,母数の同時比較から,その後の多重比較までを一連の流れの中で行うことが可能です.
結論として,最尤法によるアプローチの最大のメリットとしては,
(1)正規変換や順位変換によらずに,非正規分布も扱うことができる
(2)位置や散らばりのみならず,形の検定も,最尤法というひとつの枠の中で議論できる
(3)尤度比検定のように分布ごと・母数ごとにそれに対応した専用プログラムを用意する必要がないだけではなく,計算手順も尤度比検定の半分以下になる
などがあげられ,その実用性は極めて高いといえましょう.
===================================
【おわりに】
これまで,非正規分布を理論的に正確に扱うことはきわめて困難であるとみなされてきた.いまある正規分布至上主義の統計理論が開発された当時は,コンピュータが気軽に利用できなかった時代であり,計算が簡単であるということが大前提になっていたし,精度のよい計算法がないため,そこから具体的な見通しを得ることは難しかったからであろう.
また,従来の統計理論が,現場の実践家にとって具体的な方法を十分には与えていないことは前述したとおりであるが,最尤法によるアプローチは,コンピュータを駆使して非正規分布に対する数学的推量の拡張と洗練を目指したもので,これまで実質的には不可能であった非正規母集団に対する推定や検定が可能になる.
小生が作成した最尤法プログラム「麦」はいまだ若く未完成の部分も多いのだが,適用範囲の広さは測り知れないものがあり,非正規分布を扱ううえで直截簡明かつ実用的意義は極めて大きいと考えられる.これまで,最尤法によるアプローチは数値処理の好みの問題も絡んできて,正当な評価を妨げられてきた節があるが,もっと利用されるべきと思われた.
===================================