■平均値の差の検定の一般化(その3)

 正規分布では平均値μが位置母数とズバリ一致しましたが,分布によっては平均値や中央値,分散値などが母数(θ1,θ2,・・・,θm)の関数として演算加工されることがあります.そのため,足したり掛けたりする相手にも誤差があるともともとの母数がたとえ正規分布であっても,演算結果は正規分布とは似ても似つかない分布になることがあります.

 たとえば,標準正規分布をする変数同士の積は第2種変形ベッセル関数(母平均0,母分散1),標準正規分布をする変数同士の商はコーシー分布(母平均も母分散も定義できない)になります.そのような場合の誤差の取り扱いに,誤差伝播の法則(propagation of error)を用いてみます.

===================================

【1】誤差伝播の法則

 平均値μが2つの母数θ1,θ2の関数:μ=f(θ1,θ2)のような関数関係があるとしましょう.θ1とθ2の誤差をそれぞれΔθ1,Δθ2とすると,このとき,平均値μの誤差Δμは

(Δμ)2

=(∂f/∂θ1Δθ1+∂f/∂θ2Δθ2)^2

=(∂f/∂θ1)^2(Δθ1)^2+(∂f/∂θ2)^2(Δθ2)^2+2(∂f/∂θ1)(∂f/∂θ2)Δθ1Δθ2

=(∂f/∂θ1)^2varθ1+(∂f/∂θ2)^2varθ2+2(∂f/∂θ1)(∂f/∂θ2)covθ1θ2

で与えられるというのが誤差伝播の法則です.これはf(θ1,θ2)を点(θ1,θ2)のまわりでテイラー展開すれば簡単に証明できます.

 確率密度関数の母数θ1,θ2間には通常強い相関があり,特性値θの誤差Δθを求めるには,この式を用います.varθ1,varθ2,covθ1θ2は尤度方程式の分散共分散行列より求めることができます.

var(i)=(Δθi)^2=(I-1)ii

cov(i,j)=(I-1)i,j

r=cov/√(vari*varj)

 この式は,いわば誤差の分散公式

σ^2(x+y)=σ^2(x)+σ^2(y)+2rσ(x)σ(y)であって,z=x+yとするとz軸方向の合成分散をx軸,y軸の2つの方向に分解すると考えることができます.

 通常,2つの母集団の母数間には相関はないので,母数の差の検定では

(Δθ)^2=(∂f/∂θ1)^2(Δθ1)^2+(∂f/∂θ2)^2(Δθ2)^2

式で大丈夫です.この式は,余弦定理を特殊化して得られるピタゴラスの定理をにあたるわけです.

 これより,θ=θ1−θ2の誤差Δθについては

(Δθ)^2=(Δθ1)^2+(Δθ2)^2

が成り立つことは容易に理解できるでしょう.

 前述したように,誤差の伝播法則は近似式であって,正確な不偏推定値とはいえません.もしも,θ1とθ2が厳密に正規分布に従い,その関数μ=f(θ1,θ2)が簡単な関係式で表されるときは誤差の伝播公式よりも正確な誤差の伝播式を求めることは可能です.しかし,この公式のほうが分布の形にかかわらず成立するので利用価値は高いと考えられます.ただし,θ1,θ2の分布がコーシー分布になる場合は分散が無限大になるので,この関係は適用できません.

 μが母数θ1のみの関数あるいは三つ以上の母数の関数のときも同様に扱うことができます.いろいろな関数形の場合に誤差伝播の法則を適用した例をあげておきます.

(例題1)長方形の2辺の長さを測ってそれぞれ,2.53cm,4.67cmであったとする.縦も横も誤差を0.01cmとして,長方形の面積およびその誤差を計算すると

2.53*4.67=11.8cm2

(2.53*4.67)2{(0.01/2.53)2+(0.01/4.67)2}=0.002821cm4

したがって,面積の誤差は0.053cm2になる.

(例題2)PとQがQ=logPの関係にある場合,Qの誤差ΔQが求まっている.Pの誤差ΔPを求めよ.

誤差伝播の公式より

(ΔP)^2=(∂P/∂Q)^2(ΔQ)^2={exp(Q)}^2(ΔQ)^2

したがって,ΔP=exp(Q)ΔQになる.

 Q=logPにおいて,Qの信頼区間がQ±ΔQで与えられているとき,Pの信頼区間P±ΔPはexp(Q±ΔQ)とはならず,expQ(1±ΔQ)となることに注意されたい.ただし,Q±ΔQの信頼度が95%であることが確実であっても,P±ΔPでは必ずしもそうなりません.Qの分布が正規分布であっても,Pの分布は正規分布にならないからです.極端な場合として,Pの分布がコーシー分布になることがありますが,そのときには誤差伝播の公式が成立するための前提条件が破れますから,まったく議論できなくなります.

(例題3)2母数ワイブル分布の平均値はμ=αΓ(1+1/m)である.m±Δm,α±Δαが既知として平均値の信頼区間μ±Δμを求めよ.

 mとαのは相関があり,

(Δμ)^2={-α/m^2Γ’(1+1/m)}^2(Δm)2+{Γ(1+1/m)}^2(Δα)^2とすると誤差が過大に評価される.そこで,

(Δμ)2={-α/m^2Γ’(1+1/m)}^2(Δm)^2+{Γ(1+1/m)}^2(Δα)^2+2{-α/m^2Γ’(1+1/m)}{Γ(1+1/m)}cov(m,α)を用いる.cov(m,α)は非対角要素で与えられる.

 以上のように誤差伝播の公式を使えば,割合簡単に一方の誤差から他方の誤差が求められ,平均値の誤差が計算可能になります.また,ノンパラメトリック検定であっても分布の同一性は要求されるますが,これを押し進めていくと分布形が異なるデータ同士でも平均値の違いを検出できるようになりますから,その利用価値は高いと考えられます.(数理統計の専門家は、分布形が異なる場合に平均値だけが等しいかどうかを検定することはあまり意味がないと考えるかもしれませんが,データ解析の現場では比較する群ごとに母分布が異なるということはしばしば起こります。)

===================================