私説・統計学（検定論におけるエポック）

　検定・推定論を中心とした近代統計学の幕開けは，１９０８年にゴセットがスチューデントという筆名で発表したｔ分布の発見であるとみなされています．これが，いわゆる精密標本論の始まりなのですが，今回のコラムでは，前回とは違った視点からまったく別の切り口で，統計学の歴史を眺めてみることにしました．

　正規分布は，ド・モアブルが誤差のモデルとして導き出したといわれていますから，それは１６００年代，ニュートンと同時代に歴史上初めて登場したことになります．のちに，ラプラスとガウスが最小２乗法との関連でそれぞれ同じ曲線を再発見することによって数学的に確立するのですが，それは１８００年頃の話であり，いまでも正規分布のことをガウス分布と呼ぶのはそのためです．

　測定値は近似的に正規分布にしたがうと仮定されていますが，実際の測定結果は必ずしも正規分布にしたがうものではありません．しかしながら，母集団が正規分布でないときであっても，中心極限定理により，標本平均値の分布は測定回数が増えるにつれて正規分布に近づきます．中心極限定理は正規分布のもつ重要性を物語っていて，正規分布は数理統計学，誤差論などの分野で最も重要な分布とみなされ，卓越した地位を占めるにいたっているのです．

　ところが，ガウス分布があまりにも便利すぎたために，いろいろな現象の分布はすべてガウス分布に従うという誤解を生じてしまいます．このようになると，便利さの反面，正規分布は弊害的でさえあるのですが，正規分布神話の盲信ともいうべき好ましくない風潮は，その後も長くひきずられることになりました．

　１９００年，イギリスの統計学者カール・ピアソンは実測度数と期待度数の差の２乗を期待度数で割った量の和がカイ２乗分布に従うことを示しました．ピアソンのカイ２乗検定では，理論分布と実測値の適合度を検定しますが，分布全体にわたって適合していればカイ２乗統計量が小さくなるという素朴で見やすい尺度になっています．

　カイ２乗検定は今でもよく用いられますが，理論的にいろいろな問題点のあることが指摘されています．実はその根底にも正規分布神話がまかり通っているのですが，このあたりまでが古典統計学と呼ばれる時代です．

　１９０８年，ここからが近代統計学すなわち確率論と結びついた統計学の幕開けということになりますが，それはスチューデントのｔ検定で始まりました．ｎ個の観測値の標本平均ｍと母平均μの差（距離）を不偏標本分散の平方根ｕで割った統計量

の分布が自由度ｎ－１のｔ分布に従うことはゴセット（筆名：スチューデント）が最初に発見し，フィッシャーが厳密に証明したことは歴史的事実として有名です．

　それまでの正規分布を使用する平均値の差の検定は，母分散が既知という条件下で用いられるものですが，この仮定は現実的でないことはいうまでもありません．しかも，それは大標本のときだけ信頼できることはよく知られています．しかし，そう頻繁に繰り返すことのできない実験もあり，その場合でも小さな標本から平均値の差の有意性を判定する必要が生じます．大きい標本と小さい標本の限界をどこにひくべきかは問題があるところですが，小標本のために考案された平均値の検定がスチューデントのｔ検定で，いわゆる精密標本論の始まりとみなされています．

　１９２０年代，２群における平均値の差の検定であるスチューデントのｔ検定は，３群以上を対象としたものに拡張されます．２群の場合を含んで，多群間の比較に用いられる総括的な検定手法が分散分析（ＡＮＯＶＡ）ですが，この方法は，群間分散／群内分散比を判別関数とした分析法で，歴史的には１９２０年代にフィッシャーにより提示されたものです．

　平均値の差の基本的な考え方は，観測された平均値の差（群間分散）がその誤差（群内分散）を超えて統計学的に有意な差を示すか否かを客観的な評価基準によって判定することにあります．そのためには，ある有意水準αを定めた統計量ｋ（α）を利用して，群間分散／群内分散比と基準値ｋ（α）のずれを本物とみなすべきか，統計的誤差範囲内とみなすべきかをその大小関係から検討し，もし，群間分散／群内分散比≧ｋ（α）ならば有意水準αで帰無仮説を棄却します．分散分析の帰無仮説は，群間変動＝０と表わされますから，これはμ1＝μ2＝・・・＝μkと等価です．すなわち，等平均の一様性検定が分散分析と呼ばれる手法です．

　フィッシャーの分散分析は，母分散が同じかあるいは分散の違いが僅かと推定される幾組かの測定に適用され，３群以上の平均値の差が等しいかどうかという等平均性の同時一括検定（μ1=μ2=･･･=μg）を行います．ｇ＝２のとき，分散分析の検定結果は，２群の平均値の差の検定に用いられるスチューデントのｔ検定に完全に一致しますから，分散分析はスチューデントのｔ検定を拡張・一般化させたものと理解することができます．

　１９３０年代から４０年代にかけて，スチューデントのｔ検定・フィッシャーの分散分析はそれぞれ分散が等しくない場合にも拡張されます．それがウェルチの検定ですが，もう少し補足してみましょう．

　スチューデントのｔ検定は，母分散σ1^2，σ2^2が未知であるが等しいとき（σ1^2＝σ2^2＝σ^2）に用いられる検定ですが，この設定条件も非常に奇妙に感じられるでしょう．つまり，２つの母平均も未知ならば，母分散も未知と考えるのが妥当であり，等分散とするのは不自然というわけです．

　母分散が未知であり，等しいとは限らないときという現実的条件下で仮説μ1＝μ2を検定する問題は，ベーレンス・フィッシャー問題と呼ばれて論じられてきた問題です．この場合，どのように工夫してもσ1^2やσ2^2によらない統計量をつくることはできないことが証明されています．つまり，正確な信頼区間は求められないのですが，しかしながら，近似的に標本分布を求める方法が開発されおり，なかでもウェルチの近似法（１９３８年）がもっともよく用いられます．

　さらに，各群で母分散が異なる場合や母分散がまったく未知であるという条件のもとで，フィッシャーの分散分析を拡張しておく必要が生じます．実はそうしたものにウェルチの分散分析（１９４７年）があります．ウェルチの分散分析については，残念なことにほとんど触れられることがなく，よく知られているとはいえませんが，竹内啓著「数理統計学」東洋経済新報社，「確率分布と統計解析」日本規格協会の中で繰り返し紹介されていますから，ぜひ参照してみてください．

　１９４０年代のエポックとしては，ノンパラメトリック法の確立があげられます．ノンパラメトリック検定には順位和検定や符合検定などが包含されますが，このうち順位和検定ではオリジナルデータを順位に変換して順位情報に基づいて検定します．

　順位和統計量が漸近正規性をもつことを利用して位置の差異を検定するのが，ウィルコクソンの順位和検定（１９４７年）です．マン＆ホイットニーも同年，これを同値な検定を発表しているので，３人の名前をとってウィルコクソン=マン=ホイットニー検定とも呼ばれます．また，クラスカル・ウォリスの検定はウィルコクソンの順位和検定を３群以上の場合に拡張させた検定であり，ノンパラメトリック版の分散分析と考えることができます．

　ノンパラメトリック検定法は，当初，パラメトリック検定の簡便法として考えられました．その特長は，分布の形が変わっても有意水準αがおおきく狂わないということ（すなわち，妥当性ロバスト：validity robust）ですが，なかには，母集団の分布に拠らず検定効率の高いもの（効率性ロバスト：efficiency robust）があり，よく普及しています．

　とくに，順位和検定は正規性を前提とした検定に比べ，一般に検定効率はそれほど悪くなく，たとえば，母集団分布が正規分布に従うと仮定した場合，ウィルコクソン検定がｔ検定と同等の検出力を持つための漸近効率（ピットマン効率）は０．９５（３／π）とかなり高くなります．すなわち，ウィルコクソン検定のｔ検定の対する漸近効率は約９５％程度で，ｔ検定と同等の検出力を得るには１／０．９５＝１．０５倍（約５％増）のサンプルサイズを要するだけで，非正規データではむしろ検定効率がよかったりします．

　ノンパラメトリック検定は計算が簡単（手計算でも検定可能）であることをめざしたものでしたが，同時に，正規分布万能主義に対する批判でもありました．今となっては，コンピュータで計算するのが当たり前ですから，計算が簡単であるというだけではたいした意味をもちませんが，正規分布に対するアンチテーゼという存在意義は大きなものがあります．

　なお，ノンパラメトリック検定が頑健（ロバスト）といわれるのは，あくまで帰無仮説の下で母集団の分布に拠らず，有意水準αがおおきく狂わないということであって，ノンパラメトリック検定の検定効率は母集団の分布に応じて様々であり，母分布が正規分布と大きく異なるとき検出力は相当に低下します．その意味では決して頑健ではありません．すなわち，ノンパラメトリック検定法の中の多くのものは第１種の過誤αに関してロバストですが，第２種の過誤βに関しては必ずしもロバストでないことを注意しておきます．

　分散分析では，帰無仮説「すべての群において母数は等しい」を同時検定しますが，もしそこで有意の結果が得られたならば仮説は棄却され，「すべての群に等しいというわけではない」すなわち母数の異なる群が存在していると判断し，次には多群のうち１群だけが他の群と違っているのか，すべての群がそれぞれ異なるのかなどを比較します．これが，多重比較と呼ばれる解析法で，種々の多重比較法が提案されています．

に増加してしまうことを指しています．例えば，αを０．０５としてもｎ＝３では０．１２，ｎ＝１０では０．４０のようにｎが増加すれば有意水準はどんどん増加してしまいます．１４回ともなると５０％以上にも高まってしまいます．

　これが多群間比較の多重性（多重比較）の問題と呼ばれるもので，どこの２群に差があるか答えるために，個々の検定をｔ検定を利用し有意水準αで繰り返し行なうと，全体として多大な偽陽性を生じることは明白です．多群においてｔ検定を繰り返すことは検定の多重性のため適切ではないのです．

　たとえば，５群の平均値μ1,μ2,μ3,μ4,μ5の比較を考える場合，μ3-μ4のような１対１の対比（対比較）のみならず，(μ1+μ2+μ3)/3-(μ4+μ5)/2のような３対２の対比が必要になることもあります．すなわち，多重比較には対比較と線形比較の２種類の方法があり，対比較にはフィッシャー法（特定の比較），ダネット法（基準との比較），チューキー法（あらゆる対の比較）などがあり，線形比較のための検定法として，シェフェ法（あらゆる比較）があります．

　すべての対比というと(μ1+3μ3+μ5)-(0.5μ2+4.5μ4)のような意味付け不明のものまで無限に含まれるので，ここでは実際面からいって意味のある対比に絞ってその組み合わせをすべて数えあげてみます．ｇ群の多重比較の場合，対比する組合せ数を求めると，フィッシャー法で１，ダネット法でｇ－１，チューキー法で，nC2=g(g-1)/2，シェフェ法では(3^g+1)/2-2^g 通りになります．チューキー数は多項式関数的に増加しますが，シェフェ数は意味付け可能な組合せだけでも，指数関数的に増加することが理解されます．

　一方，もっと一般的で簡便な多重検定方式として，ボンフェローニの不等式に基づく方法があります．この方法は比較する組み合わせの数によって有意点の設定を変えるもので，興味のある対比数をｈとすると，１回の検定が有意水準（実質的有意水準）α／ｈで有意ならば推論全体での有意水準（名目的有意水準）１００α％で有意差ありと判定します．１回の検定の有意水準をα0とすると，ｈ回の検定を繰り返すことによって生じる推論全体での有意水準をαに保つには，

　ボンフェローニ法はダネット法，チューキー法など所定の目的に絞って厳密に構成された棄却域に比べ，やや保守的であまり効率のよい方法とはいえないのですが，比較方法を選ばない一般性ゆえに種々の対比較問題に手軽に適用できる利点があり，また，チューキー法やダネット法に十分近似した検定結果が得られるため広く用いられています．

　このように，多重比較では何を証明したいかによって分散分析より効率のよい推論方式を構成し，それぞれの状況と目的に応じて妥当な解析法を採ることができるため，その有用性に関しては議論をまちません．「多重比較なしに科学的結論は生まれない」といわれる所以です．

　１９５０年代に多重比較法が確立したことで，１９０８年に始まった近代統計は完成をみたことになります．それ以降で，私が注目しなければいけないと思うのは，１９８０年代，当時東京大学の広津千尋教授（工学部・計数工学）がカイ２乗検定をまったく新しい視点から見直した累積カイ２乗検定を考案したことが上げられるでしょう．

　各群の平均値には，はじめから順序ないし傾向，μ1≦μ2≦・・・≦μk，μ1≧μ2≧・・・≧μkが想定される場合が少なくありません．たとえば，薬剤の用量，重症度，臨床病期別にいくつかの群に分けて，その用量や程度に応じて反応がどう変化するのかを解析する場合，その順序に従って平均値が全体として単調に変化することが期待されます．このような場合にはただ単に平均値に差があるかないかということを調べるよりも，順序に伴った変化を調べることのほうが重要でありかつ適切であると考えられます．すなわち，前節の多群比較の方法は，このような場合には適切とは言い難いのです．

　群間に自然な順序がある場合に，直線的か非直線的かは別にして，対立仮説をμ1≦μ2≦・・・≦μk（増加傾向）またはμ1≧μ2≧・・・≧μk（減少傾向）に限定して検定することを傾向のある対立仮説（ordered alternatives）または単に順序仮説の検定と呼び，分散分析のような一様性の帰無仮説（μ1＝μ2＝・・・＝μk）の検定と区別します．特に，３群以上の比較検定では順序効果を考慮にいれた傾向性仮説の検定（指向性検定・トレンドテスト）に対する理解が重要になってきます．

　累積カイ二乗検定の統計量は，小数自由度のカイ二乗値の定数倍でよく近似されることが知られています．計数データの場合においても累積カイ２乗検定は自由度３．４５までの小数自由度のカイ２乗値で実用上十分近似され，分散の違いにも相応の検出力を持つように頑健化された手法になっています．

　このように，広津のカイ２乗検定では，自由度が小さいところの小数自由度のカイ２乗分布を計算しなければならないのですが，その有意確率の計算は簡単ではありません．コラム「超幾何関数を用いた確率分布の計算」では，小数自由度のときにでも正確な計算が可能となるプログラムを用意していますので，是非参考にして下さい．

　ともあれ，累積カイ２乗検定の計算は複雑であって，統計学はコンピュータなしには済まされない時代に突入したといえるでしょう．

　分割表（クロス集計表）の解析では，計数データを集計して計算するカテゴリック統計検定を取り扱いますが，計量データに比べ教科書でもあまり強調されていないせいか，どのような場合であっても画一的にカイ２乗検定を適用しているケースが多いので特に注意が必要です．

　カイ２乗検定はリファインされなければならない理由が多々あったのですが，傾向性仮説を取り扱う検定については，元東大の広津先生による詳細な研究があり，オリジナルな成果として発表されています．その精緻な方法論は，例えば，日本規格協会刊行の「統計的データ解析」（日本規格協会），「実験データの解析」（共立出版）などに累積カイ２乗検定として集約されていて，この種の研究としては私の知るかぎりもっとも完成度の高いもので，その理論的な解析は既に行くところまで行きついているという感さえあります．

　ところが，originally made in Japan であったことが災いしたのでしょうか，本邦以外ではその重要性が認められませんでした．外国雑誌に投稿しても Hirotsu's trend test?　What? と指摘され差し戻されてしまいます．

　このことは，わが国が国際的には統計後進国とみなされている実状を示しているものと思われます．確かに，日本においては統計ならびに数理的方法論の実務への応用を専門に研究している研究者は極めて少数であり，残念ながら日本の実用統計学は非常に立ち遅れているといわなければなりません．国際的にはいまだに認識されているとは言い難い統計計算法ですが，この機会に日本人の名前のついた検定法として広津の累積カイ２乗検定を紹介したいと考えています．

　私自身，１０年ほど前まで広津氏の研究を知らないままにいろいろ悩んでいたのですが，彼の優れた業績を知るに至り大変感銘を受け，読後「目からうろこ」状態になったことを申し添えておきます．早速，累積カイ２乗検定の具体的な計算手順をプログラム化することにしたのですが，このプログラムは，これまで私が開発したコンピュータプログラムが多数あるなかでも，最も評判のよかったもののひとつとなっています．是非ご利用下さい．