■私説・統計学(精度保証と誤差法則)

 これから全3回のシリーズで,統計学史をテーマとする話題を取り上げます.シリーズ第1作目のサブタイトルは「精度保証と誤差法則」と題することにしたのですが,その理由は,統計学の歴史がそのままそっくり精度保証の歴史と重なっていると考えられるからです.
 
 私はこれまで統計学を中心に据えた研究に携わってきたので,このコラムではこれまで自分が歩んできた道程について紹介することが1つの目的となっています.しかし,本稿を書くことになった動機は自己宣伝のためばかりではありません.これからのサイエンスがどこへ行こうとしているのか,近代統計学100年の歴史の上に立つことによって,その進むべき方向を見定めたいというが主たる目的なのです.
 
===================================
 
【1】研究対象の変遷(国家論→生物計量学→確率論)
 
 「statistics」は統計学と訳されていますが,古典統計学においては文字どおりstateのための学問=国家論という意味であって,元来は国状を記述するための方法でした.したがって,その国家の人口は何人とか,戦車が何台あるとかが研究の対象であったわけです.
 
 それが生物学と結びつくことによって,次第に現在の形に移り変わっていきます.ダーウィンは,ガラパゴス諸島では島ごとにフィンチの嘴に違いがあることを発見しそれを測定しましたが,このような生物計量学的な研究を通して,のちに,種の進化は自然淘汰によるという認識(自然淘汰説)に達しました.
 
 その後,統計学は確率論と結びついて,さらに近代的な学問に進化しました.メンデルは,遺伝子が存在するという仮説を立てて,もしそれが真であるならば優性対劣性の表現形が3:1になるはずだという確率論を使って,遺伝子仮説を立証します.当時,遺伝子はまだ実在のものではなく空想上の産物にすぎませんでしたから,メンデルは一度も遺伝子をみることなしにその存在を予測したことになります.また,ここでは確率論と結びついた統計学が使われていますが,確率論と結びついた統計学を「近代統計学」と呼ぶことにしましょう.
 
===================================
 
【2】精度保証の変遷
 
 統計学の歴史は,そのままそっくり精度保証の歴史といってもよいのですが,第1期(統計学が国家論であった頃)には,単位面積あたりの人口のように平均値の概念があるだけであって,精度保証の概念は存在しませんでした.
 
 それが第2期(生物計量学)にはいると,平均値の上下にヒゲ(誤差棒)がつくようになります.これにはいろいろな流儀がありますが,平均値±標準偏差をマークするのが一般的で,正規分布であればこの範囲内に入るデータの割合は約68%,±2SDであれば約95%,±3SDであれば99.7%のデータがこの区間内に入り,千に三つが外れるということになります.また,ヒゲ図のヒゲは±SEで表示されることもあります.
 
 この表示法の欠点は,データ分布が非対称形を示し,平均値よりも標準偏差のほうが大きいデータでは,ヒゲが基線より下にはみだしてしまうことです.そこで,分布傾向をよりいっそう明確にかつ直感的に把握することができるようにと,箱ヒゲ図が工夫されました.
 
 箱ヒゲ図の描き方にもいくつかの変法,改良版がありますが,チューキーによる基本的な箱ヒゲ図では,25%と75%点で箱を構成し,中央値で横の線分,最小値と最大値で上下のヒゲを表現します.箱ヒゲ図は簡単なグラフのわりには多くの情報を含んでいるため,最近よく利用されています(精度保証第3期).
 
[補]佐藤のアルゴリズム
 
 もちろん箱ヒゲ図は分布の特徴を要約しグラフ化するための有用な方法ですが,その描き方にはいくつかのバリエーションがあり,また分布が二峰性を示す場合には一峰性のものと区別がつかないという弱点があります.
 
 各データに対応するプロットを行う場合,通常はデータ点の離合集散により密なところと疎なところがあり,データ点が密集したところでは見づらくなるため,それを分離する要求が起こります.そこで,データ点が混雑している部分を検知して,すっきりと見やすいグラフにする手法として「佐藤の密集検知方式」と呼ばれるアルゴリズムがあげられます.
 
 このアルゴリズムでは,密集とみなされない場合は本来打点されるべきy座標位置,密集とみなされた場合はx軸方向にずらした座標位置に横並びに配置して分離するという手順をとります.その結果,ヒゲ図の脇にヒストグラムが描かれることになりますから,箱ヒゲ図との比較においてもデータ密度や一峰性・多峰性の区別が一見してわかるような印象的なグラフ表現を可能にしてくれます.
 
===================================
 
【3】誤差公式の改良
 
 私の念願は,統計学を応用数学の一部門の水準まで高めること,統計学の応用領域を拡大創建することです.この節では,これまで自分がやってきたことについて紹介させていただきたいのですが,one sentenceでいうならば,それは「精度保証のなされていない統計学のいろいろな分野に精度保証の概念を導入すること」と表現できるでしょう.
 
 たとえば,最小2乗法はノイズによって歪められた情報の中からシグナルを検出し,見えなかったものを見えるようにさせる解析法ですが,これまで最小2乗解を導くにあたっては
  (1)アテハメの具合をよくすること
  (2)収束の迅速性かつ確実性を増すこと
にかなりの努力が注がれてきたため,精度保証の問題はなおざりにされてきた感があります.
 
 私が最初にやろうとしたことは回帰式の精度保証(=信頼区間を表示すること)なのですが,たとえば,1次式の場合はよいのだが,2次式になったとたん,回帰曲線の信頼区間が描けなくなる.非線形回帰式ならばなおさらで,信頼区間を描けたとしても幅が広すぎてまったく実用にならないということを経験しました.明日の降水確率が10%〜90%であるという確率予報がなされたとしても,それでは何の役にも立たないでしょう.課題は,精度を上げて信頼区間の幅を狭くすることです.
 
 それでは,なぜ誤差は大きいのかと考えると,それは誤差公式が悪いからに違いありません.誤差は小さな誤差の積み重ねからなっているわけですが,誤差の求め方としては,素朴に
  |Δz|=|Δa|+|Δb|+|Δc|+・・・
としてある本もありますが,これでは誤差は不当に大きくなってします.それに,この求め方は便宜的・作為的で理論的な裏付けがあるわけでもありません.
 
 そこで,もう少しつじつまがあっていて,しかもいろいろな場面の応用できるましな方法「誤差伝播の法則」(propagation of error)を使って求めることにしました.
  (Δz)^2=(Δa)^2+(Δb)^2+(Δc)^2+・・・
最近の誤差解析の本には,前の式と並んでこの式が取り上げられていますが,測定データに誤差はつきものであり,前の式を系統誤差,この式を偶然誤差と呼んで区別しているものもあります.
 
 この式は,幾何学的にいえばピタゴラスの定理にほかなりませんから,前の式に比べて誤差は小さく評価されます.ところが,実際例に応用してみるとまだまだ誤差が大きすぎて,実用性には乏しいことがわかりました.
 
 改良の余地ありということで,ピタゴラスの定理を一般化して得られる余弦定理にあたる誤差公式を考えてみることにしました.それが,
  (Δz)^2=(Δa)^2+(Δb)^2+(Δc)^2+・・・
         +2ΔaΔb+2ΔbΔc+2ΔcΔa+・・・
です.ここで(Δa)^2は分散,ΔaΔbは共分散を表す略号とします.
 
 この改良式は母数間の相関を考慮したものですが,たとえば,2つ(3つ)の母数がある場合,その同時信頼区間は長方形(直方体)領域で与えられるものではなく,楕円(楕円体)となることを示しているのであって,幾何学的には2次元ならば長方形に内接する楕円,3次元ならば直方体に内接する楕円体すなわちラグビーボール状態を考えることに相当します.
 
 そして,相関係数が0に近いときには長方形が第0近似解となるような太った楕円が与えられますが,相関が大きいほど細長い楕円になりますから,相関が考慮されることによって,誤差は一回り減少することがわかります.
 
 実際の誤差伝播の法則には,これに重み係数が加わるために多少複雑になるのですが,本質的なところだけを抜き出すと上の式のように書けます.私はこれを誤差楕円と呼んでいるのですが,この方法を使って誤差を計算するとやっと合理的でリーズナブルな信頼区間が得られるようになりました.
 
===================================
 
【4】精度保証によるメリット
 
 精度保証の計算は面倒ですが,いったん,精度保証ができるようになると,いろいろなメリットがでてきます.たとえば,
  (1)細菌の増殖曲線から食中毒の発生を予想する.
  (2)生存率曲線の検定をリファインする.
等々.
 
 生存率曲線の解析では,従来,カプラン・マイヤー法,ログランク検定,一般化ウィルコクソン検定などノンパラメトリック検定が行われています.これらの方法は計算が簡単であることからよく使われるようになったのですが,検定効率が低いという欠点があります.それをパラメトライズして精度保証することができるようになると,ざっと試算しても検定効率をπ/2〜π/3倍アップさせることができようになります.
 
 また,これまでの検定法は2群比較の場合に限定されていたのですが,多重比較やトレンドテストにも対応可能な形に改良することができますし,使えるモデルも,指数曲線だけでなくワイブル関数やロジスティック関数など,より現実的な数理モデルを採用することもできます.現在ある生存率曲線の解析は,いわせてもらえば前近代的な解析法なのです.
 
===================================
 
【雑感】積分形式に対する誤差伝播の法則
 
 測定データには必ず何らかの誤差がつきまといますが,データ解析を適切に行えば最小の実験費用の下で得られるべき情報量を最大にすることができるようになり,作業能率は向上します.そのためには誤差の扱い方,データ解析の信頼性について詳しく知っておくことが必要になります.
 
 数値解析・統計解析の基礎的な方法を使うだけでも,さまざまな現象について深い理解が可能になりますが,場合によっては,一連の測定結果から有益な情報を最大限取り出すために,より巧妙な数学的技法を自ら考案する必要さえでてきます.
 
 つい最近,私もそのような状況を体験しました.それは「積算値∫ydx,あるいはΣyΔxの誤差はどのように表されるのであろうか?」という問題に定式化できるのですが,誤差伝播の法則を積分形式に対しても適用できるように拡張することが求められたのです.
 
 このような場合の誤差伝播の法則の取り扱いを考えてみることは,誤差解析にとっても,自分自身の知的基盤をさらに拡大させるためにも,大変重要なことと考えられます.統計的な手法を用いて,propagation of error for integrated formを導き出すことができたのですが,それによって旧態依然のモンテカルロ法よりも格段に優れた計算精度と計算速度を得ることができました.この結果については,コラム「モンテカルロ法と乱数発生法」「積分値の誤差と誤差の積分値」をご参照願います.
 
===================================