■標本分布と統計量(その1)
これまでは母数の世界の話を扱ってきましたが,分布の母数と実際の標本から得られる統計量は区別して扱う必要があります.標本平均や標本分散など,観測の結果に依存する関数は統計量と呼ばれますが,ここではデータの世界の話,たとえば,標本分布論や不偏推定量,最尤推定量などの用語の概要について解説していきます.
===================================
【1】標本分布
前シリーズにおいて,確率分布の特徴を表わすために,中心の尺度として母平均μ=E[x],変動の尺度として母分散σ^2=E[(x-μ)^2]がよく使われことを説明しましたが,μやσ^2はモデルとしての確率分布を特徴づける定数であって観測不能な値です.
これに対して,観測データから計算される平均x(例2)Σxi/nは母平均と区別するため標本平均と呼ばれます.同様に,実際のデータから計算されるs^2=Σ(xi−x)^2/nは標本分散と呼ばれます.
また,標本分散s^2=Σ(xi−x)^2/nのnの代わりにn−1で割ったものを,ここではu^2で表わし,u^2=Σ(xi−x)^2/(n−1)は標本不偏分散と呼ぶことにします.ここで,
ns^2=(n−1)u^2
の関係が成り立ちます.
一般に,x1,・・・xnのn個の観測値の関数θn=t(x1,・・・xn)を統計量と呼びます.標本平均や標本分散は観測の結果に依存する関数であり,代表的な統計量(推定量)です.x1,・・・xnの同時分布から統計量tnの分布を求めるには多重積分が必要となりますから,一般の母集団について,統計量θnの分布は明示的に求まらないことが多いのですが,正規分布母集団を仮定すると,多くの統計量についてその標本分布が明示的に求められます.
なお,正規分布以外の一般の分布を仮定した場合には,統計量θnの分布を正確に求めることが困難であり,そのような場合には標本の大きさnが大きいときの近似理論が用いられます.
===================================
【2】正規母集団からの標本平均の分布
正規母集団N(μ,σ^2)からn個のデータを取ってその標本平均値x=Σxi/nを計算すると母平均μに近い値が得られます.前述したように,正規分布の従う確率変数の変数の和の分布は正規分布にしたがうという性質があり,xの分布は厳密に正規分布N(μ,σ2/n)であることが証明されます.
E[x]=μ,V[x]=σ^2/n
すなわち,母集団のデータのばらつき度合いがσであるのに対し,xは平均μ,標準偏差σ/√nの幅の狭い正規分布に従うことが示されました.このことはnが大きくなると標本平均がμからあまり離れないことを意味します.
ここで,標本平均の標準偏差σ/√nを母分布の標準偏差σと区別するため特に標準誤差と呼びます.つまり,標準誤差SE(standard error)は母平均μの信頼区間を表わす指標であり,未知の母平均μはx±2σ/√nの範囲に95%が含まれるであろうと予想されます.これに対し,標準偏差SD(=SE×√n)は母分布のばらつきを表わす指標です.
【補】発表された論文をみるとSDとSEの混同が少なからず見られ,甚だしい場合はSDかSEのどちらを用いているか明記されていないことすらあります.このことを知って正しく使い分けて下さること,少なくともどちらを用いているかを明記することをこの機会に是非お願いしたいと思います.
===================================
【3】正規母集団からの標本分散の分布
つぎに,「母集団分布が正規分布であるとき,標本分散と母分散の比はχ^2分布にしたがう」すなわち
(n-1)u^2/σ^2〜χ^2(n-1)
ns^2/σ^2〜χ^2(n-1)
という統計的性質を使って,標本分散(の平方根)の分布がどうなるかを考えてみることにします.
まず最初に,uの分布を求めてみることにしましょう.自由度n-1のχ^2分布は
f(x)dx=1/2^((n-1)/2)Γ((n-1)/2)x^((n-3)/2)exp(-x/2)dx
で表されますから,x=(n-1)u^2/σ^2で変数変換すると,uの分布:
g(u)du=1/2^((n-1)/2)Γ((n-1)/2)((n-1)u2/σ2)^((n-3)/2)exp(-(n-1)u2/2σ2)2(n-1)u/σ2du
が得られます.
次に,標本分散の期待値と分散を求めてみましょう.
E[u^k]=∫u^kg(u)du
において,(n-1)u^2/2σ^2=tとおいて整理すると,
E[u^k]=σ^kΓ((n-1)/2+k/2)/Γ((n-1)/2)(2/(n-1))^(k/2)
が得られます.
【補】この式は,シュワール(Shewhart)の公式と呼ばれます.ガンマ関数の計算になれていないと,式の誘導は難しいのでおしつけがましく結果だけを書いておきますが,ここでは,とりあえず,信じるものは救われる.ホレ信じなさい.というわけですが,天下り式で我慢できないかたはガンマ関数を参照しながら誘導を試みられたい.
これより,k=1の場合,
E[u]=σΓ(n/2)/Γ((n-1)/2)(2/(n-1))^(1/2)
したがって,
E[uΓ((n-1)/2)/Γ(n/2)((n-1)/2)^(1/2)]=σ
となり,uΓ((n-1)/2)/Γ(n/2)((n-1)/2)^(1/2)が,σの不偏推定値です.
同様にして
k=2ではE[u^2]=σ^2(σ^2の不偏推定値はu^2)
k=3ではE[u^3Γ((n-1)/2)/Γ(n/2+1)((n-1)/2)^(1/2)]=σ^3
k=4ではE[(n-1)/(n+1)u^4]=σ^4
が成立します.不偏推定値において、kが偶数のときは、簡単になって
E[u^k(n-1)^(k/2)/(n+k-3)(n+k-5)・・・(n-1)]=σ^k
が得られます.なお,正規分布の場合,母標準偏差の不偏推定量は前節のようになりますが,一般の分布の場合,母標準偏差の不偏推定量は見いだされていません.
標本不偏分散u2の期待値が母分散σ2に一致することが確かめられましたが,上のことを利用すると簡単に標本不偏分散の分散が求まります.
E[u^2]=σ^2
E[u^4]=σ^4(n+1)/(n-1)
V[u^2]=E[(u^2-E[u^2])^2]=E[u^4]-E[u^2]^2
=σ^4(n+1)/(n-1)-σ^4=2σ^4/(n-1)
===================================
【3】不偏推定量と最尤推定量
推定値の期待値θnが推定しようとしている母数θに等しい場合,その推定量を不偏推定量と呼びます.
E[θn]=θ
不偏性は推定量に対する妥当性の基準としてもっとも普通に用いられる基準であり,母集団分布の型に関係なく,標本平均は母平均の不偏推定量です.
E[x]=μ
母集団分布が正規分布,指数分布などの場合には,有効推定量(クラーメル・ラオ)になっています.
一方,最尤法とは分布型がわかっている場合に,具体的に推定量を作り出すひとつの方法を与える考え方で,実現値が与えられたときにその実現値を与える確率(尤度関数)を最大にするような母数の推定値を最尤推定量と呼びます.
最尤法については詳述を参考にしていただくことにし,ここでは事実だけを述べますが,μとσ^2をそれぞれ母平均,母分散とする正規母集団N(μ,σ^2)からの標本の場合,標本平均は母平均の不偏かつ最尤推定量です.平均の不偏推定量と最尤推定量は一致しますが,両方の推定量がいつも一致するとは限りません.
たとえば,標本分散s^2は母分散σ^2の最尤推定量ですが,
E[s^2]=E[1/n(x-x)^2]=1/nE[(x-μ)^2]-1/nE[(x-μ)^2]=σ^2−σ^2/n
より偏り−σ^2/nをもっていて,不偏推定量ではありません.
偏差平方和を(n−1)で割った不偏分散u^2=Σ(xi−x)^2/(n−1)は最尤推定量ではなく,推定値の期待値が母分散σ^2と一致する不偏推定量となっています(E[u^2]=σ^2).このように分散の不偏推定量と最尤推定量は一致しません.(この定理の主張するところは,母集団分布に母分散が存在しさえすれば,正規分布以外の任意の分布についても成立するので,有意義です.)
一方,標本分散s^2の平方根sは最尤標準偏差ですが,不偏分散u^2の平方根uは不偏標準偏差にはなりません.母標準偏差σの不偏推定量,すなわち,E[d]=σなるdは,
d=√n/2Γ{(n−1)/2}/Γ(n/2)s
=√(n−1)/2Γ{(n−1)/2}/Γ(n/2)u
で与えられます.ここで,sやuの係数は1より大きい値を示すところから,d>u>sになります.
ついでに,σ^4の不偏推定値としてはu^4を使えばよいのだろうかという問題の解答も掲げておきます.結論だけかいておくと
n^2/(n^2-1)s^4=(n-1)/(n+1)u^4=1/(n^2-1){Σ(x-x)^2}^2
===================================
【4】フィッシャー情報量とクラーメル・ラオの不等式
分布形f(x;θ)が与えられたとき,それを規定しているパラメータθの不偏推定量θに対して,それ以上分散V[θ]を小さくできないという意味の下限(CRB:クラーメル・ラオバウンド)が知られています.クラーメル・ラオの不等式は
V[θ]≧1/nI(θ)
で表されます.ここで,I(θ)はフィッシャー情報量と呼ばれ,
I(θ)=E{(∂logf(x;θ)/∂θ)^2}
=∫(-∞,∞)∂logf(x;θ)/∂θ)^2f(x;θ)dx
で定義されます.
また,
E{(∂logf(x;θ)/∂θ)^2}=-E{(∂2logf(x;θ)/∂θ2)^2}
が成り立ちますから,
I(θ)=-E{(∂2logf(x;θ)/∂θ2)^2}
と定義することもできます.
すなわち,フィッシャー情報量とは,あるデータが観測されたとき,パラメータθの変化に対して密度関数の対数がどれだけ変化するのかをその大きさを2乗でとり,確率分布について平均したものです.変化の大きい方が推測しやすいだろうと考えられるというわけです.(一様分布にはクラーメル・ラオの不等式成立の前提たる正則条件が満足されていないので,クラーメル・ラオの結果を適用できない.)
実際に,正規分布N(μ,σ^2)において,位置母数μと尺度母数σ2のフィッシャー情報量を計算すると
I(μ)=1/σ2,
I(σ2)=1/2σ4
となり,
V[μ]≧σ2/n
v[σ2]≧2σ4/n
が示されます.
ここで,CRBに達する推定量を有効推定量といいます.母集団が正規分布N(μ,σ^2)に従うとき,
E[x]=μ,V[x]=σ^2/n
より,標本平均は母平均μの不偏推定量であり,かつ有効推定量ですから,あらゆる不偏推定量のなかで分散が最小です.
一方,標本不偏分散は,
E[u2]=σ2
V[u2]=2σ4/(n-1)>2σ4/n
より有効推定量ではありません.しかし,(証明は省略しますが),あらゆる不偏推定量のなかで分散が最小であることが示されています.
===================================