■裏検定とは何か?

 
 「裏検定」という統計用語をご存知でしょうか? 知らなくて当たり前,小生の勝手な造語なのですから・・・.この場合の「裏」とは,たとえば「裏金」など機密費扱いのものでも,「裏口入学」「裏稼業」といった反社会的なニュアンスをもつものでもありません.
 
 裏検定の「裏」は,「逆」だとか「対偶」だとかと同列のれっきとした数学用語なのであって,「aならばbである」に対して「aでないならばbでない」という命題を指しています.したがって,「裏検定」は悪事とは一切関係なく,どちらかといえば「裏技」に近い意味をもつ用語であることを最初にお断りしておきます.
 
===================================
 
 最も多く使われる統計検定「平均値の差の検定」を例にとって説明しましょう.平均値の差の検定では「差がある」ことを示したいのですが,統計検定ではわざわざ「差がない」という仮説を設定します.そして矛盾が導き出されれば,積極的に「差がある」ことがいえるわけです.
 
 このような検定方法は,素数は無限にあることを証明したいために有限個しかないと仮定する,あるいは,√2が無理数であることをいうために有理数であると仮定する.そして,その仮定の下では矛盾が起こるのは仮定に誤りがあるのであって,素数は無限個あるし√2は無理数であることを間接的に証明する数学的証明法−−「背理法」−−と相似思考の関係にあることがおわかり頂けるでしょう.
 
 すなわち,検定の論理は「背理法」ですから,否定したい仮説をいったん設定し,得られたデータから確率論的に仮説の矛盾を導こうとするものです.そうでないことを示すためにわざわざ仮定する仮説を「帰無仮説」,矛盾と見なす確率が「有意水準」と呼ばれます.
 
 ところで,このような検定の流れに対して何か不自然なものを感じられた経験はないでしょうか? 少なくとも私にとっては,最初から平均値に差があることを仮定して仮説検定するほうが自然の流れなのではないかという素朴な疑問が浮かびました.そのため,本来の検定様式の「裏」にあたる仮説を置く検定を「裏検定」と呼んでいるのです.
 
 結論を先にいうと「裏検定」は本で取り上げられることも実際に行われることも極めて少ない特殊な検定なのですが,その理由は本来の「表検定」の論理をマスターすることによって理解されます.今回のコラムでは「表検定」に拠らなければならない理由や「裏検定」独自の使い道について考えてみることにしましょう.
 
===================================
 
【1】裏検定のロジック(裏の裏は表か?)
 
 統計検定は,本来,帰無仮説を棄てて対立仮説を採る場合に有力なのですが,「裏検定」の帰無仮説は「データの母集団は平均値に差がある」ですから,本来の「表検定」の仮説とは逆になっています.
 
 そのため,「裏検定」で「差がある」という仮説が棄却された場合,積極的に「差がない」すなわち同等であると結論することはできるのですが,棄却されない場合,積極的に「差がある」ということにはなりません.棄却されないことは単に同等性を示す十分な証拠がないということであって,いいかえると,「差がないとはいえない」という消極的な結論しか導けないのです.
 
 したがって,データの母集団は平均値に差があることを認めたいという前提で,検定者の意図がより積極的に「差がある」ことを評価することに向けられているときには,「裏検定」では「差がない」「差がないとはいえない」のどちらに軍配が上がっても,煮えきらない結果しか得られません.
 
 積極的に有意差を評価するためには「表検定」に拠らなければならないことがおわかり頂けましたでしょうか? 以下では,同じことの繰り返しになりますが,もう一度,統計検定のフィロソフィーを踏まえておくことにしましょう.くどくどと(書いている本人がうんざりするほど)説明してありますが,どうかめげずに読み進んでみて下さい.
 
===================================
 
【2】表検定の論理(ネイマン・ピアソン基準)
 
 統計的仮説検定では標本から得られた統計量が仮説とどれくらい乖離すると,仮説を棄却しうるかという境界を設けることになりますが,その際,われわれは2種類の判定ミスを犯します.「仮説が真であるのにそれを棄却する」誤りを第1種の過誤α,「仮説が偽であるのにそれを採択する」誤りを第2種の過誤βといいます.
 
[補]最近では,得られたデータが有意となるような間違った検定を選ぶ誤りを「第3種の過誤」と呼びますが,ここでは第3種の過誤の問題には触れないでおきます.
 
 医学統計の場合では,第1種の過誤とは病気の人を健康と判断してしまうこと,第2種の過誤とは健康な人を病気と判断してしまうことに対応します.第1種の過誤確率は状況を考えて選ばなければなりませんが,医療診断のように誤りが重大な結果をもたらす場合には第1種の過誤確率は非常に小さくとる必要があります.
 
 これら2タイプの判定ミスは,競合的かつ背反的で,一方を減らすと他方が増えるというトレードオフの関係にあります.これら2つの判定ミスを同時に減少させることはできないわけですが,検定では,「危険率は小さく,検出力は大きく」が要請されます.不幸にもこの2条件は互いに矛盾することになります.そこで,統計検定では妥協策として第1種の過誤を中心としていろいろなルールが設定されています.
 
 有意水準を前もって指定しておき,危険率がこの水準を越えない範囲で検出力がなるべく大きくなるように棄却域を定めるようにした検定基準がネイマン・ピアソン基準といわれるものです.すなわち,一定の第1種の過誤確率について,第2種の過誤確率を最小にするような棄却域の選び方がネイマン・ピアソン基準で,医学統計の問題に再び戻れば,病気の人が健康とみなされる確率(もちろんこの確率はできるだけ小さくしたい)が与えられたとき,健康な人が病気とみなされる確率を最小にする判定基準を求めることに相当します.
 
 ネイマン・ピアソン基準の本質はαを厳しくおさえておいて帰無仮説が棄却できるかを問う点にあり,αが厳しくおさえられているからこそ帰無仮説が棄却できれば安心して対立仮説を採択できるのです.これに対して,ネイマン・ピアソン基準では帰無仮説が棄却できないとき,対立仮説が真であるとは判定できないことに注意して下さい.
 
 平均値の差の検定の場合について具体的に述べますと,有意水準αの有意差検定で帰無仮説が棄却されたなら,それは積極的に「差あり」を支持しますが,棄却されないことは,積極的に「差なし」=「同等」を支持するものではありません.有意差がない(帰無仮説が棄却されない)というのは単に検出力やサンプルサイズが不十分で有意差が示せない(有意差を示す十分な証拠がない)だけかもしれず,積極的に帰無仮説を支持するものではありません.すなわち「差があるとはいえない」ということであって,これは有意差ありが積極的に対立仮説を支持するのに対し大きな相違点です.
 
 このように,検定の論理は対立仮説を積極的に認めることはできるが,帰無仮説を積極的に認めることは難しいという内容になっています.つまり,有意差検定では,同等とする帰無仮説と差異有りとする対立仮説が対等に扱われていないことを強調しておきます.有意性検定において,有意差のないことをもって同等と見なしていることが往々にしてあるようですが,そこには「論理のすりかえ」があるのです.
 
===================================
 
【3】表検定の検出力について(キレがあるのにコクがある)
 
 普段,検定の有意水準αをうるさくいうわりには,検出力(1−β)についての考慮が足りないように思われます.検出力とは帰無仮説が真でないときに,正しく有意と判定する確率のことで,いわば検定法の切れ味に相当します.一方,有意水準はキレに対してのコクみたいなものになるのでしょうか.
 
 前述したように,統計手法に基づく判定の誤りには2種類の形式が存在します.平均値の差の検定の場合について述べますと@本当は差がないにもかかわらず差ありとしてしまう誤り(第1種の過誤α:言い過ぎ)とA本当は差があるにもかかわらず差なしとしてしまう誤り(第2種の過誤β:見落とし)です.これら2種類の誤りの確率は同時に小さいことが望ましいのですが,αとβの関係は競合的かつ背反的で同時に小さくするような棄却限界値を定めることは一般にはできません.「キレがあるのにコクもある」といったどこぞのビールのようなキャッチコピーは不可能なわけです.この矛盾への対処としてαがある値を超えないようにした上でなるべくβが小さくなるように棄却限界値を定めています(ネイマン・ピアソン基準).
 
  ・・・・・・・・・・・・・・・・・・・
  ・     ・   検定 結果   ・
  ・ 真 実 ・・・・・・・・・・・・・
  ・     ・ 差なし ・ 差あり ・
  ・・・・・・・・・・・・・・・・・・・
  ・ 差なし ・ 1−α ・  α  ・
  ・ 差あり ・  β  ・ 1−β ・
  ・・・・・・・・・・・・・・・・・・・
 
 標本数の決定には第2種の過誤も考慮しα,βを同時にコントロールします.その際,αの値は通常(伝統的に)1%あるいは5%に指定されますが,βの値はαに対するβの重要度によって規定され,多くの場合,β=4αと定めておけば十分であるとされています.
 
 しかし,厄介なことに統計検定ではあらかじめαを決めることはできてもβを決めることは不可能です.有意な差があっても,標本数が少なければ有意差は検出できなくなってしまいますから,βを小さくしたいならまず標本の大きさを増すことですが,むやみやたらに大きくすることは現実的ではありません.
 
===================================
 
 t検定の有意水準と検出力について考えてみましょう.
 
 「statistics」は統計学と訳されていますが,古典統計学においては文字どおり国家論という意味であって,元来は国状を記述するための方法でした.検定・推定論を中心とした現代統計学の幕開けは,1908年にゴセットがスチューデントという筆名で発表したt分布の発見であるとみなされています(いわゆる精密標本論の始まり).スチューデントはゴセットのペンネームであることはよく知られていますが,ゴセットの謙虚な人柄を表すのに最適な筆名です.
 
 そして,スチューデントのt検定を洗練された形に改良したのがフィッシャーです.フィッシャーはn個の観測値の標本平均と母平均の差(距離)を不偏標本標準偏差の平方根で割った統計量tの分布をn次元ユークリッド空間を使って導きだし,これらを「スチューデントの定理」としてまとめました.
 
 未知のパラメータμ,σ2をもつ正規分布N(μ,σ2)に関して,
  (1)E[u^2]=σ^2
  (2)標本平均mと標本不偏分散u^2は任意のμ,σ^2について独立である.
  (3)t=(m−μ)/(u/√n)はμ,σ^2に独立な分布(自由度n−1のt分布)をもつ.
 
[補]母集団分布が正規分布でないとき,統計量t=(m−μ)/(u/√n)の正確な分布についてはnが小さいときしか知られておらず,nが大きくなると非正規性の影響が大きくなることがわかっています.
 
 スチューデントの定理を2標本問題に適用してみましょう.スチューデントのt検定では,母分散は未知であるが等しいという仮定よりσ1^2=σ2^2=σ^2ですから,母分散σ^2の大きさを,不偏標本分散u1^2,u2^2を用いてその重みつき平均
  {(n1-1)u1^2+(n2-1)u2^2}/(n1+n2-2)
で推定します.そうすると
 t={(m1-m2)-(μ1-μ2)}/√(σ12/n1+σ22/n2)
  ={(m1-m2)-(μ1-μ2)}/σ√(1/n1+1/n2)
  ={(m1-m2)-(μ1-μ2)}/√{(n1-1)u12+(n2-1)u22}/(n1+n2-2)*(1/n1+1/n2)
は自由度n1 +n2 −2のt分布にしたがうことになります.
 
 表検定では,母平均が等しいこと(μ1=μ2)が帰無仮説ですから,統計量
  t=(m1-m2)/√{(n1-1)u12+(n2-1)u22}/(n1+n2-2)*(1/n1+1/n2)
が自由度n1+n2-2のt分布にしたがいます.このことより,表検定では
  t=|m1-m2|/√{(n1-1)u12+(n2-1)u22}/(n1+n2-2)*(1/n1+1/n2)≧k
  k(α)=t(n1+n2-2,α/2)
かどうかで帰無仮説を棄却します.
 
 正規分布を使用する平均値の差の検定は,大標本すなわち豊かな資料が得られているときだけ信頼できることはよく知られています.しかし,そう頻繁に繰り返すことのできない実験もあり,その場合でも小さな標本から平均値の差の有意性を判定する必要が生じます.大きい標本と小さい標本の限界をどこにひくべきかは問題があるところですが,小標本のために考案された平均値の検定がスチューデントのt検定で,データ件数が少ないときの平均値の差の検定に関してはt分布を使うことになり,正規分布より少し広めに信頼区間を設定することになります.
 
 なお,スチューデントのt検定はσ1^2=σ2^2であることを仮定していますが,たとえσ^12≠σ2^2であっても真の有意水準が設定値αからあまりずれないことが知られています.このような性質を,t検定は分散の違いに対してロバスト(頑健)であると呼びます.ただし,これはn1≒n2のとき成り立つのであって,n1≒n2が2倍以上異なってくると,t検定は分散の違いに対してロバストではなくなります.→【補】ウェルチのt検定
 
===================================
 
 母平均の同等性の帰無仮説の下では,統計量
  t=(m1-m2)/√{(n1-1)u12+(n2-1)u22}/(n1+n2-2)*(1/n1+1/n2)
はt分布にしたがいましたが,一般には統計量tは自由度n1+n2-2,非心度
  γ=(μ1-μ2)/σ/√(1/n1+1/n2)
の非心t分布にしたがうことになります.そして,非心度γが大きくなるとともに統計量tは大きな値を取りやすくなり,棄却限界値k(α)を超える確率が増大します.
 
 ここで,母平均の差が
  |μ1-μ2|/σ=γ√(1/n1+1/n2)≧δ
以上であるとき,検出力1−βを保証したいものとしましょう.つまり,δはどのくらいの差を見逃せないか,どのくらいの差を真に意味のある差と考えるかという基準になっていますが,以上の議論により,自由度n1+n2-2,非心度γ=δ/√(1/n1+1/n2)の非心t分布の確率密度関数f(t,γ)に対して,
  P=∫(k(α),∞)f(t,γ)dt=1−β
が保証されればよいわけです.
 
 母分散σ1^2,σ2^2が既知のとき(この仮定は現実的でない!)の2標本問題では,横軸の方向に平行移動し,縦軸方向に伸縮した正規分布の密度関数を考えればよいので,標本サイズを与える公式は簡単に導き出せます.しかし,スチューデントのt検定の場合,事情はだいぶ違っていて,γはnとともに大きくなりますから,この式は必要な標本サイズを明示的な形では与えていません.
 
 このままでは計算機を用いて標本サイズを試行錯誤的に求めなければなりません.しかし,容易に標本サイズを求める近似法がすでに考案されているので,有意水準α・検出力1−β・有意差δ(どのくらいの差を有意と考えるか)から具体的にサンプルサイズを決定する方法については成書を参照して下さい.
 
 ただし,常識的な検出力を保証しようとすると大概は実行不能なサンプルサイズが要求されることになります.通常の例数では,αを0.05や0.01とした場合相当保守的な検定になっており,本当に差がないなら100回中5回も誤った判断は下ださない代わりに,βが大きくなってしまうため,差があってもそれを正しく検出する確率(1−β)は50%にも達しません.これはある意味でやむを得ないことで,統計検定の宿命になっています.
 
===================================
 
 次に,3群以上における平均値の差の検定に用いられるF検定について考えてみます.この方法は,群間分散/群内分散比を判別関数とした分析法で,分散分析の帰無仮説は「群間変動=0」と表されますから,これは「μ1=μ2=・・・=μg」と等価です.すなわち,多群間の母平均の一様性検定に用いられる総括的な検定手法が「分散分析」で,歴史的には1920年代にフィッシャーにより提示されました.
 
 よく知られているフィッシャーの分散分析(F検定)は,母分散が同じかあるいは分散の違いが僅かと推定される幾組かの測定に適用され,3群以上の平均値の差が等しいかどうかという等平均性の同時一括検定(μ1=μ2=・・・=μg)を行います.なお,F分布はフィッシャーにちなんで,スネデカーにより命名されたものです.
 
 上で述べたスチューデントのt検定は,
  F=(m1-m2)^2/{(n1-1)u12+(n2-1)u22}/(n1+n2-2)*(1/n1+1/n2)≧k
  k(α)=√F(1,n1+n2-2,α)
と同じことになるのですが,g=2のとき,分散分析の検定結果は,2群の平均値の差の検定に用いられるスチューデントのt検定に完全に一致します.
 
    スチューデントのt検定 → 分散分析
        1           g-1
       n1+n2-2        Σ(ni-1)=n-g
    t(n,α/2)=√F(1,n,α)    √F(g-1,n,α)
 
と対応させると,これまで述べてきたことは,そのまま分散分析にもあてはまります.つまり,分散分析は,2群の場合を含んで,スチューデントのt検定を拡張・一般化させたものと理解することができます.
 
 また,統計量Fは,一般に非心度
  γ=Σni(μi-μ0)^2/σ^2   (μ0=Σniμi/n)
の非心F分布に従い,とくにμ1=μ2=・・・=μgのとき,F分布:F(g-1,n-g)に従うことになります.
 
 一般のg標本問題の場合の検出力については,μiのうち少なくともある一対について
  |μi-μj|/σ≧δ
のとき,相加・相乗・調和平均の不等式を用いると,
  γ≧n1(μi-μ0)^2/σ^2+n1(μi-μ0)^2/σ^2
   ≧2|μi-μ0|/σ|μj-μ0|/σ√ninj
   ≧|μi-μ0|/σ|μj-μ0|/σ/(1/ni+1/nj)
また,
  |μi-μ0|/σ+|μj-μ0|/σ≧2√|μi-μ0|/σ|μj-μ0|/σ≧δ
より,
  γ≧δ^2/(1/ni+1/nj)
が成り立つことを利用して,非心度δ^2/(1/ni+1/nj)の非心F分布に対して,
  P=∫(k(α),∞)f(t,γ)dt=1−β
が保証されればよいことになります.
 
[補]非心t分布・非心F分布の計算は,現在では統計数値表によらずとも計算機で簡単に行えます.たとえば,コラム「超幾何関数を用いた確率分布の計算」では小数自由度のときでも使えるプログラムを紹介してあります.
 
 スチューデントのt検定の拡張版である分散分析(F検定)はt検定と同様,分散の違いに対してある程度頑健であって,有意水準がほとんど変わらないことが知られています.したがって,それ程神経質になる必要はないとのことですが,極端に不等分散であるかどうかは確認しておく必要があるでしょう.ただし,頑健であるのはデータ数がほぼ等しいときであって,データ数がかなり異なれば解析の妥当性に問題を生ずることを注意しておきます.→【補】ウェルチの分散分析
 
===================================
 
【4】裏検定(同等性の検証)
 
 ネイマン・ピアソン基準では,帰無仮説と対立仮説を同等に考えないで,帰無仮説を棄却することを重視していますから,有意差検定で帰無仮説が棄却されないことは,積極的な等平均性の証明ではなく,この程度であれば等平均と見なしてもよかろうという消極的な検定です.つまり,有意差なし≠同等です.
 
 しかし,一方において同等性を検証することもしばしば必要になります.たとえば,薬剤の特性は一面的でなく,同等の薬効が期待できるならば,副作用の少ない薬の方が有用と考えられますから,治験薬は対照薬に対し,有効率において必ずしも有意に優れている必要はありません.実際,同等であれば治験薬は認可されるのですが,薬効が同等なら認可という考え方自身はもっともに思われます.このような観点から,有意性検定とは別に,積極的に同等性をいうための手法が提案されています.
 
 同等性検定でも,ある程度以上の差δを見逃す確率を一定値β以下に抑えることが要求されます.その際,
  (1)具体的にδ,βをどのような値に設定するか
  (2)見逃せない差δにコンセンサスが得られるか
  (3)適切な標本数の決定に相当なサンプルサイズを要する
などの問題が生じます.
 
 さらに,同等性検定では,表検定における中心分布と非心分布の関係が反対になるため,話は一層複雑になりますが,実際にはδ上乗せ方式によって,裏検定の話を通常の表検定と同様の有意差検定に置き換える方式が採られているようです.その手法の根拠や実際問題への具体的適用例については,↓の文献を参照して下さい.
 
【参考文献】
広津千尋(1986):臨床試験における統計的諸問題(1)−同等性検定を中心にして− 臨床評価,14:467〜476
 
===================================
 
【5】安全性基準について(毒性評価のフィロソフィー)
 
 薬理作用の有効性を検定する場合,その薬に明確な薬効がない限り薬効を認めないという論理は合理的であると考えられますから,検定の論理(ネイマン・ピアソン基準:α(=有意水準)を方を一定にし,βを最小にするような検定方式)は「薬効評価」に適しています.
 
 ところが,薬の毒性や副作用についてみると明確な証拠がなければ毒性を認めないというのは危険ですから,「毒性評価」の検定の論理は逆に不合理で検出力の考慮がなおざりにされています.つまり,生産者と消費者の立場の違いによって,第1種と第2種の過誤のどちらが重要であるかが変わってきます.
 
 第1種の過誤は生産者にとって好ましくない誤りであることから生産者危険,また別名をあわて者の誤りといいます.これに対して,第2種の過誤は製品を購入する消費者側からみて好ましくない誤りであることから消費者危険,別名をぼんやり者の誤りとということがあります.
 
 安全性について検定する場合,有意水準αよりも,見逃しの危険率βの方が重要な意味をもってきます.そこで,第1種過誤と第2種過誤が同等の重要性をもつときには,0.05や0.01という有意水準よりも,0.30とか0.20という水準のほうが適切と考えられますから,αをあらかじめ大きく設定します.標本の大きさが同じであるならばαが大きいほうがβは小さくなります.
 
===================================
 
【おわりに】
 
 統計学は,観察データに基づく記述統計学と,実験に基づく小標本により母集団のパラメータを推測する推測統計学に二分されます.前者は進化論で有名なダーウィン(自然淘汰説)に礎をおき,カール・ピアソンにより大成されたものです.また,後者は遺伝の法則を導いたメンデル(遺伝学説)の流れをくみ,フィッシャーにより大成されました.
 
 今回のコラムでは,仮説検定の棄却域境界を作る原理(第一種過誤を望み通り抑え,同時に第二種過誤を抑えるために判定基準:いわゆるネイマン・ピアソン基準という仮説検定論)をめぐる話を中心に展開しましたが,相当な議論をつくしてもなお明快な結論の得られていないものなど,統計学にはいまだ未完成の部分も多いこともおわかり頂けたましたか?
 
 確率論を利用した推計学はフィッシャーに始まりますが,それは19世紀の統計的思考の中心的地位を占めた正規分布万能主義(正規分布神話)への批判として表明されたものでもあります.また,それまでは,いくつかの標本から得られたことはそのまま真理であるとみなされたのですが,フィッシャーは標本はあくまで標本にすぎず,真理は標本から推し計るしかないと考え,推計学の概念に到着したのです.統計的結論は原理的に絶対に真実ということはなく,ある確率で正しいだけなのです.
 
===================================
 
【補】ウェルチのt検定
 
 スチューデントのt検定では,母分散σ1^2,σ2^2が未知であるが等しい(σ1^2=σ2^2=σ^2)という設定条件をおいていましたが,この設定条件も非常に奇妙に感じられることでしょう.つまり,2つの母平均も未知ならば,母分散も未知と考えるのが妥当であり,等分散とするのは不自然というわけです.そこで,母分散σ1^2,σ2^2が未知であり,等しいとは限らないという設定にしてみましょう.
 
 このようにσ12とσ22が全く未知であるという現実的条件下で,仮説μ1 =μ2 を検定する問題は,ベーレンス・フィッシャー問題と呼ばれて論じられてきた問題です.この場合もσ1^2やσ2^2をそれぞれ標本不偏分散u1^2,u2^2で置き換えるのですが,
  t=|m1-m2|/√{u1^2/n1+u2^2/n2)}
の分布は未知の分散σ1^2,σ2^2よって影響をうけるため,どのように工夫してもσ1^2やσ2^2によらない統計量をつくることはできないことが証明されています.正確な信頼区間は求められていないのですが,しかしながら,近似的に標本分布を求める方法が知られており,なかでもウェルチの近似法がもっともよく用いられます.
 
 ウェルチのt検定(1938年)では,
  t=|m1-m2|/√{u1^2/n1+u2^2/n2)}≧k
  k(α)=t(df,α/2)
  df={u1^2/n1+u2^2/n2)}^2/{u1^4/n1^2(n1-1)+u2^4/n2^2(n2-1)}
かどうかで検定します.
 
 サンプルサイズが等しい(n1=n2)か,標本分散が等しい(u1=u2)ならば,スチューデントのt検定とウェルチのt検定のt値は一致します.また,自由度に関しては(n1=n2)かつ(u1=u2)のときdf=n1+n2-2が成り立ちますから,2群のデータ数および標本分散が等しいときに限り,スチューデントのt検定とウェルチのt検定は一致し,両者の接続性が保たれていることになります.
 
 一般に
  min(n1-1,n2-1)≦df≦n1+n2-2
ですから,ウェルチのt検定はスチューデントのt検定よりも検出力が劣ります.しかし,逆にいうと,推定効率を下げることによって等分散でない場合にも拡張させた手法がウェルチの方法といってよいでしょう.ウェルチの近似解は,σ1^2/σ2^2があまり1から離れない範囲で十分精確な検定方式になっています.
 
===================================
 
【補】ウェルチの分散分析
 
 一般のg標本問題でも,各群で母分散が異なる場合や母分散がまったく未知であるという条件のもとで,スチューデントの分散分析を拡張しておく必要が生じます.実はそうしたものにウェルチの分散分析があります.
 
 ウェルチは,g=2の場合に倣って,
  m0={Σnimi/ui^2}/{Σni/ui^2}
  W=Σni(mi-m0)2/ui^2
  1/df=3/(g^2-1)Σ1/(ni-1){1-ni/ui^2/Σni/ui^2}^2
とおくとき,統計量
  F=[1+2(g-2)/(g^2-1)Σ1/(ni-1)(1-ni/ui^2/Σni/ui^2)^2]^(-1)*w/(g-1)
がF分布:F(g-1,df,α)に従うことを示しました(1947年).
 
 g=2で,u1^2=u2^2=u^2であればウェルチの分散分析の検定結果はウェルチのt検定に一致します.ウェルチの分散分析については,残念なことにほとんど触れられることがなく,よく知られているとはお世辞にもいえませんが,竹内啓著「数理統計学」東洋経済新報社,「確率分布と統計解析」日本規格協会の中で繰り返し紹介されていますから,ぜひ参照してください.
 
===================================