■どの確率モデルを選定するか(その5)

[1]ロバスト推定量としての標本中央値

 標本平均は,母集団が正規分布N(μ,σ^2)に従うとき,母平均μの不偏推定量であり,かつ,あらゆる不偏推定量のなかで分散が最小です.したがって,正規分布の平均を推定するには,標本平均が一番よい推定量です.しかしながら,母分布が正規でなかったりという状況では必ずしも最適な推定量とはいえませんし,また,標本平均は外れ値の影響を受けやすいという欠点もあります.

 標本平均のこの欠点を標本中央値に対する漸近相対効率(ARE)を調べることによって見てみます.前節で示したように

  ARE=(中央値の漸近分散/標本平均の漸近分散)-1=4f^2(0)σ^2

で定義されます.

 たとえば自由度νのt分布であれば母分散はν/(ν−2)ですから,標本平均の漸近分散はν/(ν−2)/n,一方,標本中央値の漸近分散は

  1/4n{f(0)}^2=1/4νπΓ^2(ν/2)/Γ^2((ν+1)/2)/4n

ですから,まとめると以下の表が得られます.

ARE

正規分布  0.64

t分布

(df=3)1.62

(df=4)=1.13

(df=5) 0.96

(df=10)0.76

両側指数分布 2

ロジスティック分布 0.82

コーシー分布∞

 正規分布の場合は標本中央値の分散のほうが大きくなりましたが,表からわかるように,正規分布より少しでも裾が長いと想像されるときには,それがどんな分布であっても,位置母数推定に関しては,標本中央値のほうが標本平均よりAREが1より大きいか,または小さくてもそれ程小さくないという点で優れていると考えられます.この性質を称して,標本中央値は位置母数のロバスト推定量であるといいます.

 一般的にいって,順序統計量は外れ値や分布形の非対称性の影響を受けにくい指標であり,たとえば,平均値と中央値を比べてみると,他のデータと非常にかけ離れた値が混入している場合でも,中央値のほうが平均値より狭い範囲に密集するため,安定した結果を与えてくれます.このように極端な値が混入しても,推定量が大きく変動することのないような性質を持った推定量をロバスト推定量といいます.標本平均や標本分散は外れ値の影響を受けやすく,頑健とはいえませんが,標本中央値や標本4分位数は外れ値に対して抵抗性があります.そのため,中心位置のロバスト推定量としては中央値,散らばりのロバスト推定量としては4分位偏差や範囲がよく用いられます.正規分布より相当にばらつきに大きいことが想定される場合か,あるいは分布形に関する情報が乏しいときは,ロバスト推定量の使用が薦められます.

===================================

[2]ロバスト推定量としてのホッジス=レーマン推定量

 ロバスト推定には大別して3つのクラスがあり,M推定(最尤法に基づくロバスト推定),L推定(順序統計量に基づくロバスト推定),R推定(順位統計量に基づくロバスト推定)があります.

 一般に,R推定量は観測値の陽関数として表せないのですが,唯一の例外は母分布がロジスティック分布をとる場合であり,このとき,対応するR推定量はホッジス=レーマン推定量になります.ホッジス=レーマン推定量とは

  (x(i)+x(j))/2,1<=i<=j<=n

なる(Σ(n-k+1)=)n(n+1)/2個の中央値のことを指します.これは中央値を一般化した特性値と考えられますが,中央値よりもさらにロバストであり,ウィルコクソンの順位和検定の漸近効率との関係で重要な指標となっています.

 ホッジス=レーマン推定量の頑健性を調べてみることにしましょう.証明はハエック「ノンパラメトリック統計学」(日科技連)に譲りますが,ホッジス=レーマン推定量の漸近分散は

φ(t)=2t-1,φ(t,f)=-f'[F-1(t)]/f[F-1(t)]として,

  {∫(0,1)φ(t)φ(t,f)dt}^2/integral(0-1){φ(t)-φ}^2=12*{∫(-∞,∞)f(x)^2dx}^2

で与えられます.

(補)∫(0,1)φ(t)φ(t,f)dt=2∫(-∞,∞)f(x)^2dx

   ∫(0-1)φ(t)=0

   ∫(0-1){φ(t)}^2=1/3

 また,実際に,位置母数θを未知母数とするt分布の位置母数モデルf(x-θ)のフィッシャー情報量を計算すると

  V(θ)=(ν+3)/n(ν+1)

が示されます.すなわち,t分布の下で最適な位置母数の推定量を求めると,その分散下限(CRB)は上式のようになることが理解されます.

 そこで,ある分布に対してある推定量がどのくらい推定量なのかを,その推定量の分散がCRBを達成している割合で示すことができます.いま,t分布を例にとって,CRBに対する標本平均,標本中央値,ホッジスレーマン推定量の漸近効率

(ν-2)(ν+3)/ν(ν+1)

4f(0)^2(ν+3)/(ν+1)=4/νπ{Γ((ν+1)/2)/Γ(ν/2)}^2(ν+3)/(ν+1)

12*{∫(-∞,∞)f(x)^2dx}^2(ν+3)/(ν+1)

を示すと,

自由度    1   2    3    5   10    ∞

標本平均 0 0 0.5 0.8 0.945 1

標本中央値  0.811 0.833 0.811 0.769 0.712 0.637

ホッジスレーマン0.61 0.87 0.95 0.99 0.999 0.95

となります.標本平均は自由度5以上ではよいのですが,それ以下では急速に効率が低下します.それに対して,標本中央値やホッジスレーマン推定量は安定していることがわかります.とくに,ホッジスレーマン推定量は自由度4以上で常に95%以上となり,自由度7から15の範囲では99%以上です.

===================================