■どの確率モデルを選定するか(その6)

 順位検定は母分布が正規分布のときはt検定より少し悪いが,正規分布から離れた分布のときはt検定より検出力がよいことが示されています.分布や異常値に対する頑健性をもつ手法というわけです.

===================================

[1]線形順位和統計量の分布

 観測値xiを並べ替え,小さい順に1,2,・・・と順位をつけます.すると原データにはそれぞれ順位が対応し,最小値x(1)には1,最大値x(n)にはnが対応することになります.データxiに与えられるスコアをs(i)とすると,順序統計量x(i)を用いて

  s{x(i)}=i

と書くことができます.

 ここで,n個の原データからn1個のデータx1,・・・,xn1をとり,それに対応するスコアの合計

  s=s(1)+s(2)+・・・+s(n1)

の分布を考えてみることにします.(n1+n2=n,n1<n2)

 統計量sの最小値はn1(n1+1)/2,最大値はn1(n1+1)/2+n1n2で,それぞれの値を取るのは1通りですから,その生起確率は1/n!になります.またsの分布が対称分布になることも容易にわかります.しかし,起こるうるいろいろなsに対して,誤りなく数え上げるのは結構大変で,その正確な分布を求めることは,コンピュータの助けを借りたとしても,たいそうな労力を要します.

 そこで,n1,n2がある程度大きいときには正規近似が使われます.この場合,スコアの分布は区間1:nの離散一様分布に従うと考えると,線形順位和統計量sの期待値は平均順位が(n+1)/2であることからたやすく求められます.

  E[s]=1/2n1(n+1)

また,分散は若干の計算が必要ですが,同順位がなければ,

  V[s]=1/12n1n2(n+1)

で与えられます.

 証明は省略しますが,実は順序統計量の線形結合の分布に対しても,漸近正規性が成り立つことが証明されています.順序統計量の線形結合に基づくロバスト推定はL推定と呼ばれますが,その考え方は,データをスコアに置き換えたもの(R推定)にもそのまま適用することができますから,これを基準化した統計量,

  u=(s-E[s])/sqrV[s]

が漸近正規性をもつことを利用して位置の差異を検定するのが,ウィルコクソンの順位和検定(1947年)です.マン&ホイットニーも同年,これを同値な検定を発表しているので,3人の名前をとってウィルコクソン=マン=ホイットニー検定とも呼ばれます.

 ウィルコクソンの順位和検定は,2つの標本の平均値の差の有意性を判定する従来のt検定に相当するノンパラメトリック検定の1つの検定です.ウィルコクソン検定のように,データそのものを用いるのではなく,順位に変換して,それに対応するスコア情報に基づいて検定するノンパラメトリック検定に,クラスカル・ウォリスの検定があります.クラスカル・ウォリスの検定はウィルコクソンの順位和検定を3群以上の場合に拡張させた検定であり,ノンパラメトリック版の分散分析と考えることができます.

===================================

[2]その他の線形順位和統計量

 ウィルコクソン検定では観測値を順位に変換してスコア情報に基づいて検定しました.すなわち,ウィルコクソン検定では,スコアs{x(i)}=iとおいて線形統計量sを求めたわけですが,スコアの与え方としては,これ以外にもいろいろな方法を考えることができます.

 たとえば,

  s{x(i)}=0 i<=1/2(n+1)

  s{x(i)}=1 i>1/2(n+1)

はxiが中央値より大きいときに限り1となるので,統計量sは中央値を越えるデータの個数を表すことになり,対応する検定は中央値検定になります.

 それでは,スコアをどのように選べば高い検出力が得られるのでしょうか? スコアの作り方はフィッシャー情報量と関係しているのですが,分布形が与えられたとき,それを規定しているパラメータの不偏推定量に対して,それ以上分散を小さくできないという意味の下限を示すクラーメル・ラオの不等式が知られていて,ある分布fに対してスコア生成関数を

  φ(t,f)=-f'[F-1(t)]/f[F-1(t)]   0≦t≦1

にとれば,その推定量の分散がCRB(クラーメル・ラオバウンド)を達成することができます.

(証明)

 F-1(t)=xとおけばt=F(x),dt=f(x)dxよりフィッシャー情報量

I(f)=∫(-∞-∞)[f'(x)/f(x)]^2f(x)dx=∫(0-1)[φ(t,f)]^2dt≧σ^(-2) (σは母集団の分散)

と書ける.なお,∫(0-1)φ(t,f)dt=0である.

 これによると,母分布がロジスティック分布f(x)=exp(-x)/{1+exp(-x)}^2のとき,φ(t)=2t-1となり,これは線形変換でスコアφ'(t)=tと互いに変換することができますから,順位(ウィルコクソンスコア)は最適なスコアの与え方になっています.また,母分布が正規分布ならば,最適なスコア生成関数はφ(t)=Φ-1(t)となり,正規スコアを与えるフィッシャー・イェーツ検定やファン・デル・ヴェルデン検定などが漸近効率の高い検定法として知られています.

 このように,もし,母分布が既知なら検定の漸近効率が1になるようにスコアを選ぶこともできますが,とはいえ,母分布が未知だからこそノンパラメトリックなスコア検定が必要なのであり,現実的にはあらかじめ最適なスコアを選択しておくことはできません.

ロジスティック分布f1=exp{-x}/(1+exp{-x})^2 φ1(t)=2t-1

両側指数分布 f2=1/2exp{-|x|} φ2(t)=sign(2t-1)

正規分布 f3=(2π)^(-1/2)exp{-x^2/2}  φ3(t)=Φ-1(t)

コーシー分布 f4=[π(1+x^2)]^(-1)   φ4(t)=-sin(2πt)

 なお、大まかにいえば、t→1のときのφ(t,f)の増え方が速いほどfの右裾が短くなる。明らかにφ1はφ2よりも速く増加し、φ3はφ1よりも速く増加するから、正規分布はロジスティック分布よりも裾が短く、ロジスティック分布は両側指数分布よりも裾が短いことがわかる.

===================================

[3]ピットマン効率

 ウィルコクソン検定のように,観測値から順位に変換することで,ある程度の情報を失うことになります.しかし,情報の大部分はその順位の中に残っています.そこで,検定の漸近効率(ピットマン効率)を比較してみることにしましょう.ピットマン効率とは,母分布に応じて平均値の差異に関して最適な検定を想定して,その推定量が最良の推定量と同等の精度をもつために必要なサンプル標本サイズの逆数を示す指標です.

 母分布が正規分布のとき,t検定は最適な検定(一様最強力不偏推定)となりますが,t検定に対するウィルコクソン検定のピットマン効率は0.95(3/π)と計算されます.これは,観測値のうちの5%を捨てるのと同じことになり,ウィルコクソン検定がt検定と同等の検出力を得るには1/0.95=1.05すなわち5%増のサンプルサイズを要することを意味しています.

[補]母分布が正規分布であるとき,F検定に対するクラスカル・ワリス検定も12σ^2*{∫(-∞,∞)f(x)^2dx}^2=3/π=0.95.

F検定に対するフリードマン検定の相対効率は12σ^2*k/(k+1)*{∫(-∞,∞)f(x)^2dx}^2=2/π=0.64.フリードマン検定はウィルコクソン検定の拡張というよりは符号検定の親戚であり,効率はそれほどよくない.

 しかし,母分布が裾の重い分布に従うときには,ピットマン効率が1以上となり,t検定よりウィルコクソン検定のほうがかえって例数が少なかったりします.たとえば,母分布が自由度5のt分布であれば,最適な検定に対し,t検定では1/0.8=1.25倍,ウィルコクソン検定では1/0.99=1.01倍となり,かえって例数が少なかったりします.このように,母分布が裾の重い分布に従うときには,t検定よりウィルコクソン検定のほうが望ましいことがわかります.

 さらに,y=f(x)をy軸に関して対称な任意の分布としたとき,∫(-∞,∞)f(x)^2dxの値を付帯条件:

  ∫(-∞,∞)f(x)dx=1,∫(-∞,∞)xf(x)dx=0,∫(-∞,∞)x^2f(x)dx=σ2

の下で最小にすると,最小値は3√(5)/(25σ)となりますから,t検定に対するウィルコクソン検定のピットマン効率は任意の分布に対して12*(3√(5)/25)^2=0.864以上とかなり高い値となり,ウィルコクソン検定は非常に望ましいノンパラメトリック検定法であることがわかります.

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

ARE(Wilcoxon:t)=12*{∫(-∞,∞)f(x)^2dx}^2≧0.864

(証明)この問題はもっとも不利な分布を求める変分問題である.汎関数を

  I(y)=∫(-∞,∞)y^2dx

とおくと,ラグランジュの未定乗数法により,

  ∫(-∞,∞)[2y+λ+μx+νx^2]δydx

したがって,解は放物線型密度関数になる.分布yは偶関数であるから

  y=-ax^2+b a>0,b>0

として,付帯条件を満足させるように未定係数を決定すると,

  I(y)=3√(5)/(25σ)

が示される.

 なお,汎関数は関数を変数とする関数のことで,関数の関数と理解されます.統計学では,ノンパラメトリック法における漸近理論を展開するためにしばしば応用されます.

===================================