■日本人の名前のついた統計検定法

 今回のコラムのテーマはトレンドテスト(傾向性仮説の検定)に関するものですが,計量データならびに計数データの統計検定においては,各群の平均値にはじめから順序ないし傾向,すなわち,

  μ1 ≦μ2 ≦・・・≦μk ,

  μ1 ≧μ2 ≧・・・≧μk

が想定される場合が少なくありません.

 たとえば,薬剤の用量,重症度,臨床病期別にいくつかの群に分けて,その用量や程度に応じて反応がどう変化するのかを解析する場合,その順序に従って平均値が全体として単調に変化することが期待されます.このような場合にはただ単に平均値に差があるかないかということを調べるよりも,順序に伴った変化を調べることのほうが重要でありかつ適切であると考えられます.多群比較の方法はこのような場合には適切とは言い難いのです.

 データのカテゴリー間に自然な順序がある場合に,直線的か非直線的かは別にして,対立仮説を

  μ1 ≦μ2 ≦・・・≦μk (増加傾向)

または

  μ1 ≧μ2 ≧・・・≧μk (減少傾向)

に限定して検定することを傾向のある対立仮説(ordered alternatives)または単に順序仮説の検定と呼び,分散分析のような一様性の帰無仮説

  μ1 =μ2 =・・・=μk

の検定と区別します.特に,3群以上の比較検定では順序効果を考慮にいれた傾向性仮説の検定(指向性検定・トレンドテスト)に対する理解が重要になってきます.

 具体的に説明すると,傾向性検定は(表2)のように同一薬剤の投与量を段階的に変えて用量反応関係を観察したデータを処理するときに用いる検定です.(表1),(表2)は数字の上ではまったく同じデータですが,形式的に異なる計量データで,群間に順序がない(表1)の場合は通常の分散分析を,群間に順序がある(表2)ではトレンド検定の適用が望まれます.

  (表1)          (表2)

  A薬:1.18±.73   A薬(5mg)  :1.18±.73

  B薬:1.19±.13   A薬(10mg) :1.19±.13

  C薬:1.55±.06   A薬(25mg) :1.55±.06

  D薬:1.50±.23   A薬(50mg) :1.50±.23

  E薬:1.86±.14   A薬(200mg):1.86±.14

 直線や2次・3次の多項式回帰で表される関係が仮定できるときには相関分析・回帰分析を利用して検定を行なうこともできますが,非線形関係が想定される場合はこれらは適用できません.ここでは線形・非線形関係にかかわらず単調性だけを仮定しますが,そのような場合であっても分散分析などの一様性仮説の検定や多重比較を適用することは必ずしも適切ではありません.データのカテゴリー間に自然な順序がある場合は,累積χ^2検定のようなトレンド検定のほうがずっと効率が良いのです.

===================================

【1】自由度の割引率

 1950年代に多重比較法が確立したことで,1908年に始まった近代統計は一応の完成をみたことになります.それ以降で私が注目しなければいけないと思うエポックは,1980年代に当時東京大学の広津千尋教授(工学部・計数工学)がχ^2検定をまったく新しい視点から見直した累積χ^2検定を考案したことが上げられるでしょう.

 分割表(クロス集計表)の解析では,計数データを集計して計算するカテゴリック統計検定を取り扱いますが,計量データに比べ教科書でもあまり強調されていないせいか,どのような場合であっても画一的にχ^2検定を適用しているケースが多いので特に注意が必要です.χ^2検定はリファインされなければならない理由が多々あったと思われるのです.

 累積χ^2検定の具体的な方法については後述することにしますが,a×b分割表の場合,順次得られたχ^2値は順位をずらしながら比較しているので,相互にその前の順位の影響を受けていて独立ではありません.したがって(a−1)×(b−1)のχ^2分布には従いません.

 しかし,ある実効自由度のχ^2分布の定数倍の分布によく近似することが確かめられていて,計数データの場合においても累積χ^2検定は自由度3.45までの小数自由度のχ^2値で実用上十分近似され,分散の違いにも相応の検出力を持つように頑健化(標本の分布型に左右されない)された手法になっています.

 この定数倍(小数端数付き)は自由度の「割引率」とみなすことができます.斧田太公望先生に教えていただいたのですが,田口玄一氏が推奨する累積法は広津千尋先生の累積χ^2検定のF検定版と考えることができるそうです.田口の累積法は米国の品質管理で「Taguchi method」として高く評価されていて,そのため田口玄一氏は本田宗一郎とともに米国自動車殿堂入りの栄誉に輝いています.

 また,経時的分散分析(繰り返し測定データの分散分析法:repeated mesurement ANOVA)では,データは繰り返し測定による経時的関連性をもっているため,乱塊法とは本質的に異なってきます.分布情報の推移を盛り込むためにどうしても相関構造が入ってしまうからです.そのための補正が必要となるわけですが,その際の自由度の割引法としてGeiser-Greenhouse法(GG),Hyunh-Feldt法(HF),Wallenstein-Fleiss法(WF)などが考案されています.

 たとえば,WF法では経時的にc回の観測が繰り返されている場合の有効反復数を(c−1)でなく,5(c^2−1)/2(c^2+7)に直すので2.5までの小数自由度で近似することになります.したがって,これらも本質的に広津や田口の方法と同じものと考えることができるというわけです.

===================================

【2】計数データに対する累積χ^2検定

 以下に,a×b分割表において累積χ^2検定を適用する場合の計算法の概略について説明します.(表3)は列の水準だけに順序がある場合ですが,a×b分割表(この例の場合はa=3,b=4)をb−1個のa×2分割表に分解して,それぞれについてピアソン型χ^2値を計算しそのプーリングを行ないます.合計した統計量を累積χ^2値と呼びますが,その成分は互いに独立ではないため,それぞれ自由度b−1のχ^2分布には従いません.

(表3)順序分割表(列の水準だけに順序がある例)

     : 無効 :やや有効: 有効 : 著効 : 合計 

  A薬 :  3 :  8 : 30 : 22 : 63 

  B薬 :  8 :  9 : 29 : 11 : 57 

  C薬 :  2 : 11 : 33 : 17 : 63 

(表4)累積χ^2検定のための補助表

     : 1 :2−4: :1−2:3−4: :1−3: 4 :

  A薬 : 3 : 60: : 11: 52: : 41: 22:

  B薬 : 8 : 49: : 17: 40: : 46: 11:

  C薬 : 2 : 61: : 13: 50: : 46: 17:

      χ^2=6.15   χ^2=2.80   χ^2=3.68

  累積χ^2値=6.15+2.80+3.68=12.63

 a×b分割表をいろいろな2区分で切り直してa×2分割表にまとめ,それぞれからχ^2統計量を作り直し,その最大値(この例の場合は6.15)を自由度a−1のχ^2分布に従うと見て有意確率を評価することがよく行なわれていますが,これでは多大な偽陽性を生ずることは明らかです.これは「分割表の切り直しによる多重性の問題」といわれているもので,可能な区分のうち,事後的に一番大きなχ^2値に注目しているわけですからまったく合理的ではありません.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

(表5)順序分割表(行,列ともに順序がある例)

          : 無効 :やや有効: 有効 : 著効 : 合計 

  A薬(5mg) :  3 :  8 : 30 : 22 : 63 

  A薬(10mg):  8 :  9 : 29 : 11 : 57 

  A薬(25mg):  2 : 11 : 33 : 17 : 63 

 (表5)は行を同一薬剤の投与量の差とすると行,列の両方ともに順序がある場合になります.その場合は(a−1)×(b−1)個の2×2分割表に分解し順次累積しますが,(表3)の場合と同様にして(a−1)×(b−1)のχ^2分布には従いません.しかしながら,計数データの場合においても累積χ^2検定は自由度3.45までの小数自由度のχ^2値で実用上十分近似され,分散の違いにも相応の検出力を持つように頑健化された手法になっています.

===================================

【3】計数データに対するスコア検定

 次に,スコア検定について説明します.スコアを割りつける線形順位和検定は一般化マンテル検定と総称されますが,特にウィルコクソン・スコアを用いた一般化マンテル検定では同順位がたくさんあると考えてウィルコクソン検定(2群)またはクラスカル・ワリス検定(3群以上)を行った結果と一致します.

(表6)クラスカル・ワリス検定のための補助表

     : 無効 :やや有効: 有効 : 著効 : 合計 

  A薬 :  3 :  8 : 30 : 22 : 63 

  B薬 :  8 :  9 : 29 : 11 : 57 

  C薬 :  2 : 11 : 33 : 17 : 63 

  小計 : 13 : 28 : 92 : 50 :183 

 平均順位:  7 :27.5:87.5: 158.5 :    

 A薬のスコア=3・7+8・27.5+30・87.5+22・158.5=6353(平均点:100.8)

 B薬のスコア=8・7+9・27.5+29・87.5+11・158.5=4584.5(平均点:80.4)

 C薬のスコア=2・7+11・27.5+33・87.5+17・158.5= 5898.5(平均点:93.6)

 ウィルコクソンの線形順位和検定と累積χ^2検定の検出力の優劣については直線的な傾向かどうかによって微妙なところで一長一短があり単純な議論ではありません.それらの理論の詳細については広津千尋著「統計的データ解析」日本規格協会を参照されたい.

===================================

【4】カテゴリック統計の検定指針

 分割表の解析では計数データ・順序カテゴリーデータをクロス集計して計算するカテゴリック統計検定を取り扱いますが,計量データに比べ教科書でもあまり強調されていないせいか,どのような場合であっても画一的にχ^2検定を適用しているケースが多いので特に注意が必要です.

 混同の原因はカテゴリー間に自然な順序があるかないかという点に対する無理解と思われます.行カテゴリー及び列カテゴリーともに方向性がない場合はχ^2検定でよいのですが,行もしくは列に方向性がある場合と行および列ともに方向性がある場合は単調性を考慮したウィルコクソンの線形順位和検定,累積χ^2検定,最大χ^2検定などを適用します.傾向が見られる場合はカテゴリーの順序を考慮に入れていないχ^2検定は適切ではありません.

(表7)傾向性仮説の検定法(計数データの場合)

  順序なし:χ^2検定,尤度比検定

  一方向に順序あり:線形順位和検定,累積χ^2検定

  両方向に順序あり:順位相関係数の検定,累積χ^2検定(スコア法と2重累積法)

[多重比較]

  順序のない方向についてはボンフェローニ法やシェフェ法などによる分割表の多重比較,

  順序のある方向については最大t法による多重比較

 カテゴリーに順序がない場合においても,平均値の差の多群比較と同様に検定の繰り返しによる多重性が問題となることは言うまでもなく,ボンフェローニやシダックの方法で設定された有意水準で2群の比較を繰り返すべきです.

 また,誤解のないように補足しておきますが,薬効検定の多くは両側検定に立脚しなければならず,片側検定が採用されるのは同一薬剤の投与量間差のようにごく限られた場合のみです.「両側検定だと95%信頼係数は±1.96倍だが片側検定だと±1.645倍でよい」とか,「多群比較の検出力は2群比較に及ばない」とか,「パラメトリック検定のほうがノンパラメトリック検定より有意になりやすい」とか,そのような思い違いによって適切な手法を選択せずに統計的有意差のみを追求しようとすると当然のことながら偽陽性が増大します.ゆめゆめ統計検定の利点である客観性を損なってはなりませんし,本来の学問的な有意義さこそ議論の対象とすべきものなのです.

===================================

【5】計量データに対する傾向性仮説の検定法

 計量データの順序仮説の検定方式には,尤度比検定,Kruskal-Wallis検定の拡張としてのJonckheere検定(群ごとに順位和統計量を合計したノンパラメトリック手法,片側検定)を含めいろいろな提案がありますが,実用的でかつ高い検出力を示す方法は,平均値の差を強調,増幅する点数法(単調な係数による線形結合を作るもっとも簡便な方法)と累積法(χ^2統計量を直交性は無視して分解し特定方向への系統的な乖離を検出する)です.

 特に,累積χ^2検定は分布形の仮定や等分散性の仮定が大きく崩れたときでも有意水準,検出力とも大きく狂わない頑健な手法を与えてくれます.また,累積χ^2検定の統計量は小数自由度のχ^2値の定数倍でよく近似されることが知られていますので有意確率の計算が簡単です.

 点数法や累積法などのトレンド検定により全体的な増加・減少傾向を検定し,それに引き続いてどこに有意差があるかということに興味があるならば,ダンカン法やウィリアムズ法,最大t法など検出力にすぐれた多重比較方式を適用します.傾向のある対立仮説においてその単調性を考慮した多重比較法としてはウィリアムズ法がよく知られていますが,至適用量設定の方法としては少し問題があります.

 どの用量を境としてその前後で有意な段差が生じるかについては累積χ^2検定に基づく多重比較法(max t 法)で端から累積した平均値を考える方法が有用です.max t 法は Williams 法との比較でも優れた検出力を持つことが確かめられています.

(表8)傾向性仮説の検定法(計量データの場合)

  パラメトリック検定:スコア検定,累積χ^2検定

  ノンパラメトリック検定:コア検定,累積χ^2検定,ヨンキー検定

  [多重比較]最大t法

===================================

【6】雑感

 傾向性仮説の検定については,すでに広津千尋先生による詳細な研究があります.その業績と精密な方法論は,例えば,日本規格協会刊行の「統計的データ解析」(日本規格協会),「実験データの解析」(共立出版)などに集約されていて,この種の研究としては私の知るかぎりもっとも完成度の高いもので,その理論的な解析は既に行くところまで行きついているという感さえあります.従って,ここで説明したことは彼の研究の受け売りであること,このコラムの記述も同書に負うところが大きいことをお断わりしておきます.

 ところが,トレンド検定は医学,薬学などで非常に需要が大きいはずの統計計算であるにもかかわらず,データ解析の現場への技術移転が遅れ,いまだに認識されているとは言い難い統計計算法です.

 累積χ^2の普及を妨げてきたのは,小数端数つき自由度となる点ばかりではありません.このことはわが国における理論的成果の普及の遅さと統計学における後進国性の実状を示しているものと思われます.日本においては統計ならびに数理的方法論の実務への応用を専門に研究している研究者は極めて少数であり,日本の実用統計学は非常に立ち遅れていると言わねばなりません.この辺の事情は,統計ソフトの開発に対する評価の低さや統計ソフトがいかに開発され使用されてきたかを例にとって考えてみれば一目瞭然でしょう.

 トレンド検定をテーマとして取り上げている教科書は少なく,また,市販の統計ソフトでトレンド検定をサポートしているものもほとんどないのですが,統計検定では不可欠な知識であって,特に医学・薬学・生物学の分野においてトレンド検定は有用と思われます.何も医学,薬学に限ったことではありませんが,関連分野におけるトレンド検定の普及を促したいものです.

 なお,興味あることは広津千尋先生の研究が統計を扱う実務家の依頼がきっかけになっていることであり,問題点は何か,それをどう解決すべきかという実際的な問題意識から出発して発展した数学的研究のもっとも顕著な例の一つであるということです.

 実は私自身,15年ほど前まで広津氏の研究を知らないままにいろいろ悩んでいたのですが,彼の優れた業績を知るに至り大変感銘を受けたことを申し添えておきます.読後「目からうろこ」状態になった私の姿は想像に難くないでしょう.早速,累積χ^2検定の具体的な計算手順をプログラム化することにしたのですが,このプログラムはこれまで私が開発したコンピュータプログラムのなかでも最も評判のよかったもののひとつとなっています.

===================================