■私説・統計学(非正規分布統計学のすすめ)

 約100年に及ぶ近代統計学の歴史の中で,標本の母集団として正規分布を仮定した統計学(正規分布統計学)の時代を経て,順序統計学や順位統計学などいろいろな考えに基づく種々の統計学が誕生しました.今回のコラムでは,それらを別々の統計学としてそのままにせず,ある観点で統合することを試みてみます.
 
 統計解析とは基準値からのずれを本物とみなすべきか,統計的誤差範囲内とみなすべきかを客観的な基準によって判定する方法ですが,それに数値解析(ノイズによって歪められた情報の中からシグナルを検出する方法)の技法を組み合わせることによって,母集団分布が正規分布とならない場合においても精度保証が可能になります.これによって,データ解析の基盤をさらに拡大させることができます.
 
===================================
 
【1】正規分布統計学
 
 正規分布の確率密度関数は複雑そうに見えますが,一般的な誤差の分布関数として導かれたものであって,自然界において普遍的な分布とされています.また,母集団分布が正規分布でなくても標本が大きくなると標本平均値の分布は次第に正規分布に近づく(中心極限定理)や正規分布をする変数どうしの和と差はまた正規分布になる(再生性)など,非常に扱いやすい性質をもっています.
 
 そのため,正規分布はデータ解析の主役をつとめているのですが,現実の状況ではデータの分布が正規分布であるという想定は厳密にあてはまるとはいえない場合のほうが多く,たとえば,試験の得点分布は正規分布になると考えられているようですが,試験成績のように上限・下限が存在してしかも対称形になるとは限らないデータではむしろベータ分布などを適用すべきとする意見もあります.
 
 データの分布がいつでも正規分布に従うことを仮定してしまうことは危険であり,誤差の分布に関しても,何の実験もなしに最初から正規分布に従うとアプリオリに決められているのではありません.正規分布があまりにもよい性質をもっているために,すべての事象・現象が正規分布にあてはまるという錯覚,正規分布神話の盲信ともいうべき好ましくない弊害を引き起こしたことも事実なのです.
 
 ともあれ,現在ある代表的な統計学は,正規分布することを前提として位置の違いやバラツキの差を検定するものですから,それを「正規分布統計学」と呼んでも差し障りはないでしょう.
 
===================================
 
【2】ノンパラメトリック統計学
 
 2群の差の検定というと,必ずといっていいくらい(半ば慣習的に)t検定が利用されますが,好ましい傾向とはいえません.よく知られているt検定では,その前提に正規性・等分散性の制約が存在しており,これらの仮定が満たされない場合はt検定の結果は信頼できないのです.
 
 そのため,群によって分散の大きさが明らかに異なる場合には,ウェルチの方法以外に
  (1)適当な変数変換によってデータを等分散に近づける.
  (2)クラスカル・ワリス検定などノンパラメトリック手法を利用する.
などが考えられますが,(2)を利用するほうが適用場面が広く,非正規性データに対してはノンパラメトリック検定が適用が望まれます.パラメトリック検定は分布の前提が窮屈で計算がやや面倒であるが検出力がよい,ノンパラメトリック検定は分布の前提に比較的頑健で計算が簡単であるが検出力がよくない手法ともいえるでしょう.
 
 このように,正規分布しないときに行われる統計手法が「ノンパラメトリック統計学」なのですが,ノンパラメトリック統計学は,19世紀の統計的思考の中心的地位を占めた正規分布万能主義への批判として表明されたものと考えることができます.
 
===================================
 
【3】問題提起
 
 統計学においてもっともよく使われる検定は「平均値の差の検定」ですが,平均値の差の検定法の制約条件をまとめておきましょう.
 
  (1)スチューデントのt検定・・・正規性・等分散性
  (2)ウェルチのt検定・・・・・・正規性
  (3)ウィルコクソンの検定・・・・同分布性
 
 (1)(2)(3)はそれぞれフィッシャーの分散分析,ウェルチの分散分析,クラスカル・ウォリス検定と置き換えてもよいのですが,通常行われているパラメトリック検定では母集団分布が正規分布であることを前提としています.また,平均値の差の検定において,正規性が満たされない場合はノンパラメトリック検定が行われますが,ノンパラメトリック検定であっても,計算の途中で正規分布近似が関わってくるので,比較する群は同分布であることが要請されます.
 
 それでは「正規分布でなく,しかも分布形が違うときに,位置やバラツキ,形の違いを検出できる方法はないだろうか?」という問題が提起させるのは自然な成り行きでしょう.
 
 このような状況に遭遇したとき,個人個人の性格がズバリ現れます.それは性格というよりもデータ解析に対するフィロソフィーといってもよいのですが,厳密に考えようとするひと,前提条件を無視して旧来の方法を無理矢理適用するひと,何も考えないひと・・・.
 
===================================
 
【4】非正規分布統計学
 
 注意しておきたいのは,前提条件を無視して旧来の方法を適用しても,コンピュータからは検定結果が出力されてくるのですが,そこで計算された危険率p値は大きく狂っていて信用できないという点です.
 
 そこで,私は非正規・不同分布を扱うための方法を独自に構築することにしました.母分布に対応した統計学が求められたのですが,具体的には「最尤法」と「誤差伝播の法則」という2つの道具を使って,異なる分布型同士であっても平均値やバラツキ,形の比較が可能な,しかも検出力のよい統計的方法を創成することを試みたのです.
 
 観察データに任意の理論分布を適合させる手段としては,積率法を導入したピアソンに対して,フィッシャーは標本から母集団のパラメータを推定する際に,モーメント法(積率法)による推定量はよい特性をもっていないと批判し,モーメント法に代わるものとして最尤推定法(最尤法)を提唱しています.
 
 実際のデータをみると正規分布しないものも多いので,任意の分布のアテハメ法(最尤法)はすでに開発されていました.あとは,それに精度保証,たとえば平均値の信頼区間,標準偏差の信頼区間,形状母数の信頼区間等々を与えられるかどうかですが,これには,このシリーズの第1回で説明した誤差楕円法が使えました.
 
(例)2母数ワイブル分布の平均値はμ=αΓ(1+1/m)で与えられる.
   m±Δm,α±Δαが既知として平均値の信頼区間μ±Δμを求めよ.
 
 形状母数mと尺度母数αには相関があるため,
  (Δμ)^2={-α/m^2Γ'(1+1/m)}^2(Δm)^2+{Γ(1+1/m)}^2(Δα)^2
とすると誤差が過大に評価されます.そこで,誤差楕円法より
  (Δμ)^2={-α/m^2Γ'(1+1/m)}^2(Δm)^2+{Γ(1+1/m)}^2(Δα)^2+2{-α/m^2Γ'(1+1/m)}{Γ(1+1/m)}ΔmΔα
を用います.ここで,ΔmΔαは分散共分散行列の非対角要素で与えられます.このように誤差伝播の公式を使えば,割合簡単に一方の誤差から他方の誤差が求められ,平均値の誤差が計算可能になります.
 
 最尤法と誤差公式を使って求めた推定量は,漸近正規性や漸近有効性など非常によい性質をもっています.平均値の分布が正規分布に従うことは中心極限定理として有名ですが,平均値に限らず,標準偏差や形状母数なども漸近的に正規分布に従うことが証明されていて,さらに漸近有効性をもつこと,すなわち分散が最小の推定量であることも数値的に確認することができました.
 
 したがって,最尤法と誤差公式を使えば,非正規分布の問題を扱っていながらも,スチューデントやウェルチの検定など正規分布の場合の検定法を一部修正するだけで,非正規問題に対処することができます.これが非正規・不同分布を扱うためのトリックなのですが,このようにしていろいろな場面で使える統計学を成立させることができました.
 
 私はこの方法を「非正規分布統計学」と名づけたのですが,非正規・不同分布が扱える統計学を正規分布統計学の世界の中に築く,そして正規分布統計学が存在しうる以上,それを打ち壊すことなくして,非正規分布統計学を打ち壊すことはできない.−−−非正規分布統計学を否定することは,正規分布統計学自体をも否定することになるという趣向です.
 
===================================
 
【5】非正規分布統計学のメリット
 
 非正規・非同分布の場合に,正規分布・同分布を仮定した検定を使っても,答えがでないというわけではありませんが,有意水準が大きく狂うという問題が生じます.とはいっても,正規分布以外の分布の位置の検定に関しては,中心極限定理が使えるので,それほど大きくは狂いません.ここで問題となるのは,中心極限定理は位置に関する漸近理論なので位置の差の検定にしか使えないということなのです.
 
      正規分布統計学 ノンパラメトリック統計学 非正規分布統計学
位置      △〜○        △           ○
バラツキ     ×         ×           ○
形        ×         ×           ○
 
 したがって,バラツキや形の差を調べるには,ここで述べた方法に拠らなければならなりません.これが非正規分布統計学のメリットですし,もちろんノンパラメトリック検定に比べて検出力もよいのですが,従来ある平均値の差の検定は,母分布が正規分布の場合の位置母数の検定にすぎないこと,また,これにより多くの利点が得られることもわかって頂けたかと思われます.
 
===================================
 
【雑感】Questionable approach or Application-oriented approach?
 
 私はこれまでだれも触れなかった−−−というより避けて通った問題を敢えて取り上げたのですが,ここでの議論を通じて,厳密正規性を重視する数理統計学の理論と実際の応用の場との間には,かなりの乖離があることがおわかりいただけたかと思われます.
 
 非正規分布統計学の目的は,標本から母分布の形を最尤法(maximum likelihood method)を用いて推定することによって,母集団分布に正規分布を仮定しなくても適用可能で,さらに誤差伝播の法則(propagation of error)と結びつけることによって,異なる分布型同士であっても平均値の比較が可能な検出力のよい統計的方法を創成することにあります.
 
 数理統計の専門家は,分布形が異なる場合に平均値だけが等しいかどうかを検定することはあまり意味がないと考えるかもしれませんが,データ解析の現場では比較する群ごとに母分布が異なるということはしばしば起こります.ノンパラメトリック検定であっても分布の同一性は要求されるのですが,非正規分布統計学の考え方を押し進めていくと,分布形が異なるデータ同士でも平均値・バラツキ・形の違いを検出できるようになり,その利用価値は高いと考えられます.
 
 しかし,非正規分布統計学に対しては,questionable approachと感じられた方,あるいは,適応的で現実のデータ解析に重点を置いたadaptive, application-oriented approachと感じられた方など評価は分かれるところでしょう.半信半疑というよりもむしろ懐疑的で,あまり好意的には思っていない人のほうが多いかもしれません.
 
 非正規分布統計学を珍重するか軽蔑するかで,当人が純粋数学志向か応用数学志向か,その好みが判定できますが,非正規分布統計学に対しては,各自の好みの問題というよりも,慣れの問題,すなわち,食わず嫌いという心理的な面が大きく絡んでいるのではないかと思われます.
 
 人は多かれ少なかれ自分の拠っている基盤に固執しますから,長年にわたって努力してきた地盤が新しい道具などの出現・新規参入で揺らいだとき,大半の人は容易に切り替えができないものです.それでも,新参者(非正規分布統計学)は,風圧を覚悟の上で粘り強く頑張るしかないのです・・・.
 
===================================