■統計学におけるマイ未解決問題

 研究の効率と質は,数値解析や統計解析を適切に利用する能力に大きく左右されますが,小生が研究者を対象としたデータ解析に取り組んでから,早くも十数年が経過しました.実際のデータ解析を通じてふと思いついた種を育むうちに,数学ことに数理統計に魅せられてしまい,数値解析や統計解析の最近の研究成果が実際のデータ解析にいかに有用であるのか,どう使いどう解釈するのかをデータ解析に携わる多くの人々にわかってもらいたいというのが,データロジーに取り組むことになったそもそもの動機でした.
 
 がんセンターの研究所に籍を置いてからも,コンピュータ上で実験可能な統計理論の応用ということを日々の研究課題としていて,電子メールやホームページを利用したQ&Aにも取り組んでいます.もちろん,注文に応じて問題解決の手助けをするだけでは物足りず,頭をひねってあれこれの理論をあみだし,具体的な公式を提示し伝えることこそが,自分に課せられた使命であると考えています.ですから,つい最近のことですが,日照−炭素固定データの解析に対して,誤差伝播の法則の積分型とその離散型モデルの公式化がうまくいったので,データロジストの面目躍如たるものがあると自負しています.
 
 さて,小生はどこの講座にも属していないので,統計ならびに数理的方法論の応用等について相談できる相手がありません.そのため,難解で高度な数学的知識を必要とする問題にあたると,数学的な議論には深入りできず,しばしば泣き寝入りになってしまいます.一匹狼の悲しいところです.
 
 そこで,今回のコラムでは,小生の頭の中に長年棚上げ状態になっている統計学の問題を読者諸賢に問いかけるという企画にしてみました.結果的に,お手上げの問題を読者諸賢に押しつける形になってしまい,誠に申し訳ないのですが,よろしくご回答願えればと思っております.
 
===================================
 
(1)適合度検定の exact probability
                                   
 適合度検定では,母集団がk個のカテゴリーに分類されていて,各カテゴリーの母比率が
  p1,p2,・・・,pk   (p1+p2+・・・+pk=1)
であることを検定する問題を考えます.n個の無作為標本を抽出したとき,各カテゴリーの観測度数(O)と期待度数(E)が,以下のような1×k分割表の形式であったとしましょう.→【補】
 
  カテゴリー  C1   C2  ・・・ Ck   計
  観測度数   n1   n2  ・・・ nk   n
  期待度数   np1  np2 ・・・ npk  n
 
 適合度検定ではχ2検定あるいは尤度比検定が用いられることが多いわけですが,χ2検定については,1900年,イギリスの統計学者カール・ピアソンが実測度数と期待度数の差の2乗を期待度数で割った量の和がカイ2乗分布に従うことを示したことに始まります.
 
 ピアソンの適合度検定では,理論値と実測値の一致の度合いのよしあしをみるために,各階級ごとに
  (O−E)^2 /E   (O:観測度数 E:期待度数)
を加えて
  χ2 =Σ(O−E)^2 /E
を作って,このχ2 統計量が自由度=階級数−1のカイ2乗分布をすることを用いて理論分布と実測値の適合度を検定します.ピアソンのχ2 検定は,分布全体にわたって適合していればχ2 統計量が小さくなるという素朴で見やすい尺度になっています.
 
 ピアソンの適合度検定の欠点は,
a)nが大きいとモデルが棄却されやすい(適合しないと判定される).
b)nが小さいとモデルが棄却されにくい(適合すると判定される).
c)χ2 値の自由度がnに依存せず,もっぱら階級数によって決まる.→このとき,区間数や区間の分割点をどのように定めたらよいかという問題が生ずる.
d)漸近分布がχ2 分布でよく近似されるためには各セルの期待度数≧5でなければ用いることができない(近似的にχ2 分布に従うことの証明においてスターリングの公式を使用しているため).→5以下の項目は適当に合併する.→合併する場合,自由度が減る.
e)理論度数は小さいのに観測度数が大きい少数の特異点が全体の当てはめに大きく影響を与える.
などがあげられます.
 
 χ2 検定法はよく用いられますが,このように理論的にいろいろな問題点のあることが指摘されています.一方,適合度をみるにはここで用いた伝統的なχ2 統計量以外にも,例えば,分母を観測度数で置き換えることによって得られる修正カイ2乗統計量などがあげられます.
 
  modified χ2 =Σ(O−E)^2 /O
  Kullback's information=ΣOln(O/E)
  Matushita's distance=Σ√(O・E)
 
 尤度比検定の統計量−2ΣOln(O/E)もχ2 分布に従います.Kullback情報量は係数−2がつくかつかないかの違いだけで尤度比検定にほかなりません.EがOに対して大きすぎる,反対にOがEに対して大きすぎる場合であっても,特異値の影響が少なく,データ全体を代表する理論分布関数を構成することができる有効な方法,特異値に引きずられないロバストな方法が必要と思われますが,残念ながら,どれを用いても余り大きな差はないはずです.
 
===================================
 
 そこで,χ2検定や尤度比検定には頼らずに,正確なp値(exact probability)を算出することを考えてみます.メンデルの遺伝学におけるエンドー豆の例を引いて説明しますが,
 
      観測数  期待数
  優性  5474   7342*3/4=5493
  劣性  1850   7324*1/4=1831
   計  7324   7324
 
優性:劣性が3:1になるという仮説では,現在の度数よりもさらに偏ったものが起こる確率を計算します.したがって,正確なp値は
 exact probability=ΣnCk(3/4)^k(1/4)^(n-k)
のように2項分布の和の形で求められることになります.実際に計算すると,上の例では
  EXACT PROBABILITY= .618188
となり,χ2検定や尤度比検定の近似p値(それぞれP= .614516,P= .614293)にほぼ一致しました.検定結果を掲げておきます.
 
(1) DATA SUMMARY
Category   No.      Prob.
1       5474     .75
2       1850     .25
(2) PEARSON CHI-SQUARE TEST
CHI^2= .26288  ( N.S )  ( P= .614516 )
(3) modified CHI-SQUARE TEST
modified CHI^2= .261083  ( N.S )  ( P= .615708 )
(4) LIKELIHOOD RATIO TEST
LIKELIHOOD RATIO= .263218  ( N.S )  ( P= .614293 )
(5) EXACT PROBABILITY= .618188
===================================
 
 次に,2項分布モデルを拡張して,多項分布モデルを扱ってみることにします.2種類の形質の表現型の頻度が9:3:3:1となる例が入手できなかったので,以下の血液型のデータを用いてみます.
 
       観測数  期待数
  A型   62    200*4/10=80
  O型   84    200*3/10=60
  B型   30    200*2/10=40
  AB型  24    200*1/10=20
   計   200    200
 
 日本人の血液型の分布はA:O:B:AB=4:3:2:1といわれていますが,ある200人の集団の血液型を調べたところ,62:84:30:24であったという例です.O型の割合がとくに大きいようですが,日本人としては特異な集団といえるかどうかを検定してみましょう.
 
(1) DATA SUMMARY
Category   No.      Prob.
1       62      .4
2       84      .3
3       30      .2
4       24      .1
(2) PEARSON CHI-SQUARE TEST
CHI^2= 16.95  ( P<0.01 )  ( P= .0010516 )
(3) modified CHI-SQUARE TEST
modified CHI^2= 16.0829  ( P<0.01 )  ( P= .0014559 )
(4) LIKELIHOOD RATIO TEST
LIKELIHOOD RATIO= 16.4112  ( P<0.01 )  ( P= 1.28573E-03 )
 検定結果より,この集団は日本人の平均的な血液型分布とは異なるといえます.
 
 さて,観測度数n1,n2,n3,n4が出現する確率は,4項分布(一般には多項分布)
  n!/n1!n2!n3!n4!(4/10)^n1(3/10)^n2(2/10)^n3(1/10)^n4
で与えられるわけですが,正確なp値を求めるにはこの場合も2項分布の場合と同様に,i=1,2,・・・,kに対してniとnpiを比較して,n1+n2+・・・+nk=nの条件のもとで,|ni−npi|以上離れる確率を多項分布から計算しなければなりません.
 
 すべてのパターンの確率を足し合わせて正確なp値を求めることは,nが少し大きくなると大変なわけですが,niの分布は2項分布B(n,pi)となることを利用して,現在の度数よりもさらに偏ったものが起こる確率を計算してみました.コンピュータを使えばこの計算は容易です.ところが,χ2検定(P= .0010516)と尤度比検定(P= 1.28573E-03)ではp値がほぼ一致するのに対して,この場合のexact probabilityは一致しませんでした.
 
Category   p-value
1       .0113523
2       2.85481E-4
3       .923735
4       .409188
 
 この中で最小値をとるO型血液に対するp値:P= 2.85481E-4が,χ2検定の結果(P= .0010516)に一致するはずと考えていたのですが,もくろみは見事に外れてしまいました.各カテゴリーに対する4つのp値(.0113523,2.85481E-4,.923735,.409188)をいろいろと加工をしてみたのですが,試行錯誤したあげく,問題の解決にはいたらず,そのままうやむやになってしまいました.
 
 k個の確率変数は独立ではなく,その点を無視して計算したことにミスがあるのでしょうが,そうはわかっていても難しい.−−−とはいっても,たかが多項分布です.数学的にみて難解な問題ではないだけに,捲土重来を誓っていたのですが,この問題に再チャレンジする度に返り討ちにあっていました.というわけで,読者諸賢の回答期待しております.プログラムのメインの部分を抜粋して掲げておきます.
 
1720 '
1730 ' *** COMPUTATION ***
1740 '
1750 *COMPUTATION:
1760 CLS 3
1770 GOSUB *PEARSON
1780 GOSUB *MPEARSON
1790 GOSUB *KULLBACK
1800 GOSUB *EXACT.P
1810 RETURN
1820 '
1830 *PEARSON:
1840 SS=0
1850 FOR J=1 TO M
1860  O=N(J)
1870  E=NN*P(J)
1880  IF E<1 THEN 1900
1890  SS=SS+(O-E)*(O-E)/E
1900 NEXT J
1910 PEARSON=SS
1920 '
1930 X2=SS
1940 DF=M-1
1950 SIG$=SIG$(4)
1960 PP=.001:GOSUB *CHI2.PERCENT:IF X2>UUX THEN SIG$=SIG$(1):GOTO 1990
1970 PP=.01 :GOSUB *CHI2.PERCENT:IF X2>UUX THEN SIG$=SIG$(2):GOTO 1990
1980 PP=.05 :GOSUB *CHI2.PERCENT:IF X2>UUX THEN SIG$=SIG$(3)
1990 PEARSON$=SIG$
2000 UUX=PEARSON:GOSUB *CHI2.PROB:P0=1-P0
2010 GOSUB *SIG.SIG:PEARSON$=SIG$
2020 PEARSONP=P0
2030 RETURN
2040 '
2050 *MPEARSON:
2060 SS=0
2070 FOR J=1 TO M
2080  O=N(J)
2090  E=NN*P(J)
2100  IF O<1 THEN 2120
2110  SS=SS+(O-E)*(O-E)/O
2120 NEXT J
2130 MPEARSON=SS
2140 '
2150 X2=SS
2160 DF=M-1
2170 SIG$=SIG$(4)
2180 PP=.001:GOSUB *CHI2.PERCENT:IF X2>UUX THEN SIG$=SIG$(1):GOTO 2210
2190 PP=.01 :GOSUB *CHI2.PERCENT:IF X2>UUX THEN SIG$=SIG$(2):GOTO 2210
2200 PP=.05 :GOSUB *CHI2.PERCENT:IF X2>UUX THEN SIG$=SIG$(3)
2210 MPEARSON$=SIG$
2220 UUX=MPEARSON:GOSUB *CHI2.PROB:P0=1-P0
2230 GOSUB *SIG.SIG:MPEARSON$=SIG$
2240 MPEARSONP=P0
2250 RETURN
2260 '
2270 *KULLBACK:
2280 SS=0
2290 FOR J=1 TO M
2300  O=N(J)
2310  E=NN*P(J)
2320  IF O<1 THEN 2350
2330  IF E<1 THEN 2350
2340  SS=SS+O*LOG(E/O)
2350 NEXT J
2360 KULLBACK=-SS*2
2370 '
2380 X2=-SS*2
2390 DF=M-1
2400 SIG$=SIG$(4)
2410 PP=.001:GOSUB *CHI2.PERCENT:IF X2>UUX THEN SIG$=SIG$(1):GOTO 2440
2420 PP=.01 :GOSUB *CHI2.PERCENT:IF X2>UUX THEN SIG$=SIG$(2):GOTO 2440
2430 PP=.05 :GOSUB *CHI2.PERCENT:IF X2>UUX THEN SIG$=SIG$(3)
2440 KULLBACK$=SIG$
2450 UUX=KULLBACK:GOSUB *CHI2.PROB:P0=1-P0
2460 GOSUB *SIG.SIG:KULLBACK$=SIG$
2470 KULLBACKP=P0
2480 RETURN
2490 '
2500 *EXACT.P:
2510 IF M<>2 THEN 2600
2520 FOR I=1 TO M
2530  O=N(I)
2540  E=NN*P(I)
2550  IF O=E THEN P=1
2560  IF O<E THEN MADE=O:GOSUB *UP.WARD:MADE=E*2-O:GOSUB *DOWN.WARD:P=PL+PU
2570  IF O>E THEN MADE=E*2-O:GOSUB *UP.WARD:MADE=O:GOSUB *DOWN.WARD:P=PL+PU
2580 NEXT I
2590 EXACT.P=P
2600 RETURN
2610 '
2620 *UP.WARD:
2630 IF MADE<0 THEN PL=0:RETURN
2640 'P0=(1-P(I))^NN
2650 'P=P0
2660 P0=NN*LOG(1-P(I))
2670 P=EXP(P0)
2680 FOR J=1 TO MADE
2690 'P0=P0*(NN-J+1)/J*P(I)/(1-P(I))
2700 'P=P+P0
2710 P0=P0+LOG((NN-J+1)/J*P(I)/(1-P(I)))
2720 P=P+EXP(P0)
2730 NEXT J
2740 PL=P
2750 RETURN
2760 '
2770 *DOWN.WARD:
2780 IF MADE>NN THEN PU=0:RETURN
2790 'P0=(P(I))^NN
2800 'P=P0
2810  P0=NN*LOG(P(I))
2820  P=EXP(P0)
2830 FOR J=NN-1 TO MADE STEP -1
2840 'P0=P0*(J+1)/(NN-J)*(1-P(I))/P(I)
2850 'P=P+P0
2860  P0=P0+LOG((J+1)/(NN-J)*(1-P(I))/P(I))
2870  P=P+EXP(P0)
2880 NEXT J
2890 PU=P
2900 RETURN
 
===================================
 
【補】m×n分割表
 
 小生が開発したコンピュータプログラムは多数におよびますが,そのなかでも評判のよかったプログラムに「クロス集計表(分割表)」があります.分割表の解析では,計数データ・順序カテゴリーデータをクロス集計して計算するカテゴリック統計検定を取り扱いますが,計量データに比べ教科書でもあまり強調されていないせいか,どのような場合であっても画一的にχ2 検定を適用しているケースが多いので特に注意が必要です.
 
 混同の原因はカテゴリー間に自然な順序があるかないかという点に対する無理解と思われます.行カテゴリー及び列カテゴリーともに方向性がない場合はχ2 検定でよいのですが,行もしくは列に方向性がある場合と行および列ともに方向性がある場合は単調性を考慮したウィルコクソンの線形順位和検定,累積χ2 検定,最大χ2 検定などを適用します.傾向が見られる場合はカテゴリーの順序を考慮に入れていないχ2 検定は適切ではありません.
 
 データのカテゴリー間に自然な順序がある場合に,直線的か非直線的かは別にして,対立仮説を
  μ1 ≦μ2 ≦・・・≦μk (増加傾向)
  μ1 ≧μ2 ≧・・・≧μk (減少傾向)
に限定して検定することを傾向のある対立仮説(ordered alternatives)または単に順序仮説の検定と呼び,分散分析のような一様性の帰無仮説(μ1 =μ2 =・・・=μk )の検定と区別します.特に,3群以上の比較検定では順序効果を考慮にいれた傾向性仮説の検定に対する理解が重要になってきます.
                                    このようなトレンド検定をテーマとして取り上げている教科書は少なく,また,市販の統計ソフトでトレンド検定をサポートしているものもほとんどないのですが,統計検定では不可欠な知識であって,特に医学・薬学・生物学の分野においてトレンド検定は有用と思われます.トレンド検定の輪郭については,
  佐藤郁郎「実験ノートのグラフ化技法と最新解析法」,山海堂(1994)
  松本一彦「薬理試験における統計解析のQ&A  −累積カイ二乗検定の応用−」,日薬理誌110,341〜346(1997)
などをご参照下さい.また,具体的な計算手順は「ドクトル・カメレオン」の中ですでにプログラム化されていますので,ぜひご利用下さい.
 
 なお,ウィルコクソンの線形順位和検定と累積カイ二乗検定の検出力の優劣については直線的な傾向かどうかによって微妙なところで一長一短があり単純な議論ではありません.それらの理論の詳細ついては広津千尋著「統計的データ解析」日本規格協会を参照されたい.
 
===================================
 
(2)コルモゴロフ・スミルノフ検定の漸近相対効率
 
 経験分布関数の比較を行うコルモゴロフ・スミルノフ検定は,2群比較の場合によく知られているウィルコクソン検定(位置の差),アンサリ・ブラッドレイ検定(散らばりの差),ラページ検定(位置値の差+散らばりの差)などと同様に線形順序統計量を用いて分布の形の違い,位置の違い,散らばりの程度の差を検出するノンパラメトリック検定法です.
 
 ノンパラメトリック検定法は,当初,パラメトリック検定の簡便法として考えられましたが,特定の母集団分布を前提としなくてよいこと,なかには正規分布を前提とした検定と比べても検定効率がかなり高いものもあること,などからよく普及しています.もっと詳しくいうと,ノンパラメトリック検定法の特長は,分布の形が変わっても有意水準αがおおきく狂わないということ(すなわち,妥当性ロバストvalidity robust)ですが,なかには,母集団の分布に拠らず検出力(1−β)の高いもの(効率性ロバストefficiency robust)があります.たとえば,母集団分布が正規分布に従うと仮定した場合,ウィルコクソン検定がt検定と同等の検出力を持つための漸近効率(ピットマン効率)は0.95(3/π)となります.ここで検定効率とは同等な検出力を得るのに必要なサンプルサイズの逆数を表していますから,ウィルコクソン検定ではt検定より1/0.95≒1.05,すなわち,約5%増の例数を要することを意味しています.
 
 さらに,ホッジスとレーマンは,y=f(x)をy軸に関して対称な任意の分布としたとき,
  ∫(-∞,∞)f(x)^2dx
の値を付帯条件:
  ∫(-∞,∞)f(x)dx=1,∫(-∞,∞)xf(x)dx=0,∫(-∞,∞)x^2f(x)dx=σ2
の下で最小にすると,最小値は3√(5)/(25σ)となりますから,t検定に対するウィルコクソン検定のピットマン効率は任意の分布に対して12*(3√(5)/25)^2=108/125=0.864以上とかなり高い値となり,ウィルコクソン検定は非常に望ましいノンパラメトリック検定法であることを示しました.
 
 以下に,母分布を対称の範囲でいろいろに仮定したときのt検定に対するウィルコクソン検定,フィッシャー・イェーツ検定,中央値検定の漸近相対効率(ARE)を示します.具体的な計算方法についてはコラム「SDとSE」,コラム「等周問題(変分の問題)」を参照していただきたいのですが,
  {∫(0,1)(2t-1)φ(t,f)dt}^2σ2=12*{∫(-∞,∞)f(x)^2dx}^2σ2
  {∫(0,1)Φ-1(t)φ(t,f)dt}^2σ2
  {∫(0,1)sgn(2t-1)φ(t,f)dt}^2σ2
を計算することによって
 
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
母分布        ARE(Wilcoxon|t)   ARE(FY|t)   ARE(median|t)
一様分布       1          -       0.33(1/3)
正規分布       0.95(3/π)     1       0.64(2/π)
ロジスティック分布  π^2/9       π/3     π^2/12
両側指数分布     1.5         4/π     2
コーシー分布     -          -       -
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
母分布        ARE(Wilcoxon|FY)  ARE(Wilcoxon|median)
一様分布       -          3
正規分布       0.95(3/π)     1.5
ロジスティック分布  1.047(π/3)     4/3
両側指数分布     1.178(3π/8)    3/4
コーシー分布     1.413        3/4
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
 
を得ることができます.一般に正規分布以外の裾の重い分布に対しては,この相対効率が100%以上となりますから,これらのノンパラメトリック検定はt検定よりかなり有効な方法になり,パラメトリック検定より検定効率がよかったりします.
 
 なお,ノンパラメトリック検定が頑健(ロバスト)といわれるのは,あくまで帰無仮説の下で母集団の分布に拠らず,有意水準αがおおきく狂わないということであって,ノンパラメトリック検定の検出力(1−β)は母集団の分布に応じて様々であり,母分布が正規分布と大きく異なるとき検出力は相当に低下します.その意味では決して頑健ではありません.すなわち,ノンパラメトリック検定法の中の多くのものは第1種の過誤αに関してロバストですが,第2種の過誤βに関しては必ずしもロバストでないことを注意しておきます.
 
===================================
 
 コルモゴロフ・スミルノフ検定は,ウィルコクソン検定と同じく,分布の形が等しいときに位置に違いがあるかどうかを調べるのに有効な方法ですが,位置が接近していても分布の形が異なれば比較的大きな検出力をもつという特徴があり,分布型の検定にも用いられます.
 
 コルモゴロフ・スミルノフ検定には,見かけは異なるものの実質的には同等ないくつかの表現型がありますが,直観的にわかりやすいのは次のような方法でしょう.それぞれの母集団からの標本を
  X1,X2,・・・,Xn1
  Y1,Y2,・・・,Yn2
として,このn1+n2個の標本を大きさの順に並べたものを
  Z1≦Z2≦・・・≦Z(n1+n2)
とおき,ZiがXiのいずれかであるときにはスコアSi=1,YiのいずれかであるときにはスコアSi=−1とします.
 
 コルモゴロフ・スミルノフ統計量kは,標本の累積度数の差の最大値
  k=max|ΣSi|
と書くことができます.この場合のコルモゴロフ・スミルノフ統計量の漸近分布は計算されていて,
  v=√((n1+n2)/n1n2))k
がP{V≧v}となる漸近確率はp=2exp(-2v*v)で与えられますから,これが与えられた有意水準より小さくなるか大きくなるかで仮説を棄却・採択します.
 
===================================
 
 さて,スコアの与え方からわかるように,コルモゴロフ・スミルノフ検定を使うと中央値検定が高い検出力をもつ分布(たとえば,両側指数分布など)に対しては,よい検出力を与えます.しかし,母集団分布が正規分布に従うと仮定した場合,ウィルコクソン検定がt検定と同等の検出力をもつための検定効率は0.95と高いのに対し,正規分布のずれのモデルに関してコルモゴロフ・スミルノフ検定の検定効率は0.64〜0.75とかなり小さくなるとされています.
 
 ここで,下限値0.64については,母分布を正規分と仮定したときのt検定に対する中央値検定の漸近相対効率:
  ARE(中央値|t)=2/π
より直ちにわかるのですが,上限値0.75については,追試すれどどうしても確認することができませんでした.0.75≒15/2π^2=0.76などというこじつけも考えてみたのですが,明らかに正当性を欠いています.
 
 コルモゴロフ・スミルノフ検定は,ランダム・ウォークなど確率過程と深く関係していて,数学的には面白い性質をもっています.そのため,その解明には難解で高度な数学的知識を必要とします.データ解析の実践家としての立場からは数学的な理論に深入りせずともよいのでしょうが,母分布を正規分と仮定したときのt検定に対するコルモゴロフ・スミルノフ検定の漸近相対効率:
  ARE(コルモゴロフ・スミルノフ|t)=0.75
は,いつの日にか解決してみたいと考えているマイ未解決問題なのです.
 
===================================