■平均値の差の検定の一般化(その4)

【1】適合度の評価(goodness of fit:分布型の検定)

 ここでは,ある1組の観測値が仮定された分布からの標本と見なすことができるかどうかを検定する問題を考えます.理論分布から誘導した値と実測値とを対比すれば,理論分布の実測分布への適合度・逸脱度が判定できますが,なかでもピアソンのχ2 検定やコルモゴロフ・スミルノフ検定が最も有名です.

(1)ピアソンのχ2 検定

 1900年,イギリスの統計学者カール・ピアソンは実測度数と期待度数の差の2乗を期待度数で割った量の和がカイ2乗分布に従うことを示しました.すなわち,ピアソンの適合度検定では,理論値と実測値の一致の度合いのよしあしをみるために,各階級ごとに

(O−E)^2/E(O:実測値(観測度数) E:理論値(期待度数))

を加えて

χ^2=Σ(O−E)^2/E

を作って,このχ2 統計量が自由度=階級数−1−推定パラメータ数(正規分布であれば推定パラメータ数=2)のカイ2乗分布をすることを用いて理論分布と実測値の適合度を検定します.

 ピアソンのχ^2検定は,分布全体にわたって適合していればχ2 統計量が小さくなるという素朴で見やすい尺度になっています.一方,ピアソンの適合度検定の欠点としては

(1)nが大きいとモデルが棄却されやすい(適合しないと判定される).

(2)nが小さいとモデルが棄却されにくい(適合すると判定される).

(3)χ2 値の自由度がnに依存せず,もっぱら階級数によって決まる.

このとき,区間数や区間の分割点をどのように定めたらよいかという問題が生ずる.

(4)多項分布への漸近分布がχ2 分布でよく近似されるためには各セルの期待度数≧5でなければ用いることができない(∵近似的にχ2 分布に従うことの証明においてスターリングの公式を使用している).

→ 5以下の項目は適当に合併する.合併する場合,自由度が減る.

→ フィッシャーの直接確率を計算する.

(5)度数分布図のうえで極端にはなれたところに位置する少数の特異点(理論度数は小さいのに観測度数が大きい)が全体のあてはめに大きく影響を与え,理論分布関数も特異値にひっぱられる.

などがあげられます.

 χ^2検定法はよく用いられますが,理論的にいろいろな問題点のあることを指摘しておきます.

 適合度をみるにはここで用いた伝統的なχ2 統計量以外にも,例えば,分母を観測度数で置き換えることによって得られる修正カイ2乗統計量などがあげられます.

(1)修正カイ2乗統計量modified χ^2 =Σ(O−E)^2 /O

)2)対数尤度比統計量LR=2ΣOln(O/E)

これらはいずれも漸近的に同値であって,どれを用いても余り大きな差はないはずです.EがOに対して大きすぎる,反対にOがEに対して大きすぎる場合であっても,特異値の影響が少なく,データ全体を代表する理論分布関数を構成することができる有効な方法,特異値に引きずられないロバストな方法が必要と思われます.

===================================

(2)コルモゴロフ・スミルノフ検定

 コルモゴロフ・スミルノフ検定もウィルコクソン検定と同じく,分布の形が等しいときに位置に違いがあるかどうかを調べるのに有効な方法ですが,位置が接近していても分布の形が異なれば比較的大きな検出力をもつという特徴があり,分布型の検定に用いられます.

 カイ2乗検定は確率密度関数f(x)との一致度を調べるものでしたが,一方,コルモゴロフ・スミルノフ検定は想定した母集団分布の累積分布関数F(x)とデータから求めた経験累積分布関数G(x)との差が偶然誤差の範囲を超えているかどうかの逸脱度で判断します.

 コルモゴロフ・スミルノフ統計量の漸近分布は計算されていて,具体的には標本数をn,標本の累積度数と仮定した理論分布の累積度数の差の最大値をkとすると統計量v=k/√2/n=(√2/n)kがP{V≧v}となる漸近確率はp=2exp(-2v*v)で与えられますから,これを有意水準5%あるいは1%と比較することになります.

 カイ2乗検定は実測度数と期待度数の差の2乗和をとるので,データの全体が想定する分布の近くに集まっている度合いで分布の適合度を検定することになりますが,コルモゴロフ・スミルノフ検定では,母分布から大きくはずれたデータの有無を調べて適合度を検定していることになり,カイ2乗検定と比べ,1つだけ飛び離れた値があっても帰無仮説は棄却されやすくなります.

 なお,確率密度関数や累積分布関数の適合度をみるには,これら2検定以外にも,ネイマンのスムーステスト(一様分布に変換する方法),クラーメル・フォンミーゼスの検定(経験分布関数を用いる検定)などがあげられます.しかし,統計検定は本来,帰無仮説を棄てて対立仮説を採る場合に有力なのですが,分布の適合性検定では帰無仮説(データの母集団は想定した分布にあてはまる)を認めたいということが前提ですから,本来の仮説とは逆になっています.この場合「あてはまらないとはいえない」ほうに軍配が上がっても,他にもあてはまる分布がありえるかどうかまでは判からないことになり,煮えきらない結果しか得られません.より積極的に適合度を評価するために赤池の情報量基準が考案されています.

【補】ノンパラメトリック検定法

 コルモゴロフ・スミルノフ検定は2群比較の場合によく知られているウィルコクソン検定,アンサリ・ブラッドレイ検定,ラページ検定などと同様に線形順位和統計量を用いて分布の形の違い,位置の違い,散らばりの程度の差を検出するノンパラメトリック検定法です.

 ノンパラメトリック検定法は,当初,パラメトリック検定の簡便法として考えられました.ノンパラメトリック検定法の特長は,分布の形が変わっても有意水準αがおおきく狂わないということ(すなわち,妥当性ロバストvalidity robust)ですが,なかには,母集団の分布に拠らず検出力(1−β)の高いもの(効率性ロバストefficiency robust)があり,よく普及しています.たとえば,母集団分布が正規分布に従うと仮定した場合,ウィルコクソン検定がt検定と同等の検出力を持つための漸近効率(ピットマン効率)は0.95(3/π)とかなり高くなります.

 一方,正規分布のずれのモデルに関して,コルモゴロフ・スミルノフ検定のt検定に対する漸近効率は(0.64〜0.75)とかなり小さくなります.このように,ノンパラメトリック検定が頑健(ロバスト)といわれるのは,あくまで帰無仮説の下で母集団の分布に拠らず,有意水準αがおおきく狂わないということであって,ノンパラメトリック検定の検出力(1−β)は母集団の分布に応じて様々であり,母分布が正規分布と大きく異なるとき検出力は相当に低下します.その意味では決して頑健ではありません.すなわち,ノンパラメトリック検定法の中の多くのものは第1種の過誤αに関してロバストですが,第2種の過誤βに関しては必ずしもロバストでないことを注意しておきます.

【補】第1,第2,第3種の過誤(検定の問題と検定以前の問題)

 統計的仮説検定では標本から得られた統計量が仮説とどれくらい乖離すると,仮説を棄却しうるかという境界を設けることになりますが,その際,われわれは2種類の判定ミスを犯します.「仮説が真であるのにそれを棄却する」誤りを第1種の過誤,「仮説が偽であるのにそれを採択する」誤りを第2種の過誤といいます.たとえば,医学統計の場合では,第1種の過誤とは病気の人を健康と判断してしまうこと,第2種の過誤とは健康な人を病気と判断してしまうことに対応します.第1種の過誤確率は状況を考えて選ばなければなりません.医療診断のように誤りが重大な結果をもたらす場合には第1種の過誤確率は非常に小さくとる必要があります.

 これら2タイプの判定ミスは,競合的かつ背反的で,一方を減らすと他方が増えるというトレードオフの関係にあります.これら2つの判定ミスを同時に減少させることはできないわけですが,検定では,「危険率は小さく,検出力は大きく」が要請されます.不幸にもこの2条件は互いに矛盾することになります.そこで,統計検定では妥協策として第1種の過誤を中心としていろいろなルールが設定されています.検定の論理は「背理法」ですから,否定したい仮説をいったん設定し,得られたデータから,確率論的に仮説の矛盾を導こうとするものです.そうでないことを示すためにわざわざ仮定する仮説を帰無仮説,矛盾と見なす確率が有意水準と呼ばれます.

 なお,統計的仮説検定に際して,得られたデータが有意となるような間違った検定を選ぶ誤りを「第3種の過誤」と呼びます.最近では第1,2種の過誤よりも第3種の過誤など検定以前の問題が大きくクローズアップされています.

===================================

【2】赤池の情報量基準

 実際問題として対数正規分布と対数ロジスティック分布のどちらが最適かをデータから見分けることはほとんど不可能です.このように,ある測定値に対して候補となる確率分布がいくつかある場合,それらの中でもっとも適合しているモデルを選択する際の基準となるものが,赤池の情報量基準(Akaike's information criterion:AIC)です.

 AICも最尤法から導かれ,次式で定義されます.

AIC=−2(モデルの最大対数尤度)+2(モデルのパラメータ数)

AICの第一項はモデルの一致性に関係し,第二項がモデルの複雑性に関係します.パラメータ数が増加すると第一項は減少しますが,ある値を超えると第二項のためAICは増大し始めます.したがって,むやみにパラメータ数を増やすわけにはいきません.つまり,最小AIC法ではモデルのあてはまりのよさと複雑さとの兼ねあいからモデルの適否を判定していることになり,第二項は一種のペナルティー関数の役割を演ずることになります.AICが小さいモデルが最適とされます.

 あてはまりのよさだけを追求するのであれば,ピアソンのχ2 統計量でも十分なのですが,モデル式はよくあてはまっているだけでなく,できるだけ単純なものが望ましいので,モデル式の適否を判定する客観的な方法として最小AIC推定法(minimum AIC estimation:MAICE)が考え出されたというわけです.

 AICはエントロピーとの関連から導入された歴史的経緯があり,統計的な考えに基づいて体系的にモデル選択を行うための指標である点は注目してもよいのですが,絶対的な意味を持つものではありません.

===================================