■どの確率モデルを選定するか(その1)

 正規分布はデータ解析の主役をつとめているのですが,現実の状況ではデータの分布が正規分布であるという想定は厳密にあてはまるとはいえない場合のほうが多く,たとえば,試験の得点分布は正規分布になると考えられているようです(正規分布神話)が,試験成績のように上限・下限が存在してしかも対称形になるとは限らないデータではむしろベータ分布などを適用すべきとする意見もあります.

 データの分布がいつでも正規分布に従うことを仮定してしまうことは危険であり,また,誤差の分布に関しても,何の実験もなしに最初から正規分布に従うとアプリオリに決められているのではありません.このように,正規分布は,便利さの反面,氏素性がはっきりしない分布に対しても盲目的に適用されるなど,正規分布神話の盲信ともいうべき好ましくない風潮が指摘されています.

===================================

【1】どの確率モデルを選定するか

 母集団分布には無数の形が考えられますが,それでは研究者はどのようにして自分が直面している母集団の分布形を知ることができるのでしょうか?

 小標本の場合,とくにこの判断が難しいと考えられますが,確率モデルの選択が不適当であると間違った結論を導き出す危険性があり,どのモデルを選択するかはきわめて大切な問題となります.しかし,

a)理論的に確率分布が導かれる場合,

b)経験的に知られた確率分布がある場合,

c)特定の確率モデルに従うことが認められている現象に類似している場合,

を除き,統計的に現象を分析してこれによくあてはまる確率モデルを探すしかありません.

 実際的には,標本分布の形が重視され,平均値をはさんで左右対称に近い分布であれば,正規分布,コーシー分布,ロジスティック分布やラプラス分布,正の値のみをとり,高値に裾が長い非対称でゆがんだ分布ならば対数正規分布,ガンマ分布,ワイブル分布などが実用上の価値が大きく,いろいろな分野でよく活用されています.ただし,これらの分布のなかから闇雲に選択するのではなく,たとえば,過去の経験から適合することが知られているなど何らかの理由付けがある分布を選択することが大切です.

===================================

【2】分布系(family of distribution)の利用

 実際の標本分布に対する理論分布関数のあてはめについては,古くからピアソンシステム(Pearson system),シャリエシステム(Charlier system)などの分布系・分布族が提案されていて,モデル選択のひとつの解決法になっています.

[1]ピアソンシステム

 ピアソンはある確率モデルにより決定される度数多角形の線分勾配/平均値の比の極限形として,確率分布系を表わす微分方程式を導きました.その微分方程式は

  1/y・dy/dx=(a+x)/(b+cx+dx2)

と表されます.

この右辺は,1次関数/2次関数の形をしていて,とくに分母となる2次関数の解の値によって,対称・非対称分布,長い裾をひく分布・裾が途切れる分布など7つの基本形があり,特殊な場合としてJ型分布,U型分布などを含めると12タイプに分かれていて,度数分布曲線はこの微分方程式の12個の解の表す曲線のどれかになることを突き止めたのです.

 たとえば,正規分布曲線はb<0,c=0,d=0の場合の解です.12個の形の度数曲線の中には,正規分布から派生したχ^2分布,t分布,F分布なども含まれています.また,ベータ分布はピアソンシステムに属します.余談ですが,共通1次試験の点数分布にはベータ分布が一番よくあてはまるといわれています.

 ピアソン型分布曲線では先の微分方程式を解いて分布曲線y=f(x)を求めるわけですが,a,b,c,dは4次までの積率の関数として求められることから,データの歪度,尖度に基づいてもっともあてはまりのよい分布を求めます.また,離散分布の場合,ピアソンシステムに対応するものとして,Ord systemがあります.Ord systemでは同様の差分方程式を解くことになりますが,実現度数をいずれかの型に適合させることができます.

 ピアソンシステムは,19世紀の統計的思考の中心的地位を占めた正規分布万能主義への批判として表明されたものですが,その後の標本分布論において,ピアソンシステムが統計モデルの中心となり,重要な役割を果たしてきました.しかしあまりにも一世を風靡したため,今度はそれ以外の分布の軽視が生じてしまうという弊害を引き起こすはめになりました.

 ピアソンシステムはただ単に形式的な適合度をよくするという点だけをめざしていて,その理論的根拠があまり明確でないため現在ではほとんど使われなくなっています.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

[2]シャリエシステム(グラム=シャリエ=エッジワース展開)

 よく現れる連続分布はほぼ正規分布に近いものが多いところから,標準正規分布の確率密度関数φ(x)=(√2π)^-1exp(-x^2/2)を土台に,その導関数φ(k)(x)を用いて展開して,実際のデータにあてはまる確率分布曲線を求めることができます.すなわち,滑らかな関数がテイラー展開によって多項式近似されるように,正規分布に近い分布は正規分布から導かれるエルミート多項式を使って近似することができるというわけです.

グラム=シャリエ展開

 f(x)=φ(x)+1/6√β1φ(3)(x)+1/24(β2-3)φ(4)(x)+・・・

もう一段,近似の程度を進めると

エッジワース展開

 f(x)=φ(x)+1/6√β1φ(3)(x)+1/24(β2-3)φ(4)(x)+1/72β1φ(6)(x)+・・・

が得られます.

 √β1,β2にはそれぞれ標本歪度,標本尖度を代入します.この方法では,ピアソンシステムのように,解析的な確率密度関数を求めることはできませんが,厳密に正規分布ではないもののそれに近い分布に対しては近似計算式を得ることができますからしばしば用いられています.

 正規分布を用いて確率の近似計算を行うグラム=シャリエ=エッジワース展開やそれを利用して(上側確率の近似計算式を得るのに利用される)分位点関数の漸近展開であるコーニッシュ=フィッシャー展開に関しては竹内啓著「確率分布の近似」(教育出版)等に詳しく述べられています.

===================================