2次元データ(xi ,yi )に関数y=f(x)をあてはめるというデータ処理において,xの誤差が無視できる場合,実測値yi とその期待値f(xi )の差を残差といいます.実測値と曲線の鉛直方向の距離di が残差ですが,残差2乗和
s=Σ(yi −f(xi ))^2 ・・・・・・(1)
あるいは,これに重みwi をつけた
s=Σwi (yi −f(xi ))^2 ・・・・(2)
を最小にする関数近似が最小2乗法(least square method)です.
また,重みとは少し意味合いを異にするのですが,畳み込み積分における核について説明したいと思います.
===================================
【1】最尤法と重みつき最小2乗法
最小2乗法は,xの誤差は無視できる場合の実測値とその期待値の差(残差)の2乗の和s=Σ(yi −f(xi ))2 の値を最小とするようなパラメータの値を求めて推定値とするものでした.最小2乗法のほかに,関数モデルのパラメータの推定にもっともよく用いられる方法としては,最尤法(maximum likelihood method)があげられます.
最尤推定量とは尤度関数の値を最大にする,あるいは同じことですが対数尤度関数の値を最大するパラメータの値で,分布形が特定されているときは,最尤法を用いてあてはめる関数の中に含まれるいくつかの未定係数を決定することができます.
測定誤差が正規分布に従い,x=xi におけるyの母分散をσi^2,すなわち,残差yi −f(xi )が正規分布N(0,σi^2)に従うと仮定すると,尤度関数Lは
L=1/(2π)^n/2 Πσi ・exp(−Σ1/2σi^2(yi −f(xi ))^2 )
の形に表されます.尤度関数を最大にするためには,定数部分を省略すると,指数関数の引き数
s=Σ1/σi^2・(yi −f(xi ))^2 ・・・・・(3)
すなわち,標準化平方ユークリッド距離を最小にすることと同じです.最尤法ではこのようにしてy=f(x)に含まれる未定係数を定めますが,正規分布に従う量であることが前提となっています.誤差が正規分布に従うとき,その分布に対応した最尤推定法が最小2乗法であることがわかって頂けたでしょうか.
最小2乗法と最尤法の大きな違いをあげると,最尤法では推定値を求めるためにデータの同時分布を特定化する必要がありますが,最小2乗法では誤差項の分布に関する仮定,たとえば,正規分布に従うといった詳しい仮定を行なわなくても利用できるというメリットがあり,また,最尤法に比べて式の計算が簡単になるという実用上の利点もあります.
さらに,(3)式にもっと一般性をもたせるためには,個々のデータに信頼度に応じた適当な荷重wi を与えることにして,
s=Σwi (yi −f(xi ))^2 ・・・・(4)
を最小にすることを考えます.この方法は,最尤法から出発して尤度関数を最大にする条件と残差平方和を最小にする未定係数を求めるための条件を兼ね備えた回帰法であることから,重みつき最小2乗法または加重回帰と呼ばれています.重みつき最小2乗法では,データyi の誤差や信頼度の大小に応じたウェイトwi をつけることによって推定効率をあげることを目的としていて,それを用いることによって,外れ値の影響を受けにくいロバスト(頑健:robust)で最適な傾向線をフィットさせることができるようになります.
誤差はyのみにあるが,xの大きさによってyの誤差が異なるような場合には,すべてのデータを同等に扱わず個々のデータの精度に応じた重みwi をつける加重最小2乗解析がしばしば行われます.xの大きさにかかわらず,yの誤差は一定である場合の最小2乗解析は,wi =1とおくと(1)式に一致します.
===================================
【2】畳み込み積分と核
関数Kn(u)は,u=0でない点ではnが大きくなればなるほど0に近づき,また,u=0を含む区間で積分すれば1になる関数とする.
任意の関数f(x)に対して,積分
∫f(u)Kn(x−u)du
を,fとKnの畳み込み積分と呼ぶ.x=uの近傍でf(u)の値はほとんど変わらないと考えられるから,積分の外にくくり出すことができて,n→∞のとき,
∫f(u)Kn(x−u)du→f(x)
に近づくので,f(x)の良い近似を与えるというわけである.
[1]ガウス・ワイエルシュトラス核
Wn(u)=√(n/π)exp(−nu^2)
[2]ディリクレ核
Dn(u)=sin(n+1/2)u/2πsin(u/2)
[3]フェイエール核
Fn(u)={sin((n+1)u)/2πsin(u/2)}^2/2π(n+1)
一般に,デルタ関数は
δ(u)=0,u≠0
∫δ(u)du=1 (密度)
∫f(u)δ(x−u)du→f(x)
という性質を持つ擬関数として定義される.
√(n/π)exp(−nu^2)
や
n/π(1+n^2x^2),sinnx/πx
などはデルタ関数の直観的な導入のためによくあげられる.
===================================
【3】ランダウによるワイエルシュトラスの近似定理の証明
任意の周期関数は三角級数近似できるというのがフーリエの定理であるのに対し,任意の関数は多項式で近似できるというのがワイエルシュトラスの近似定理である.
ここではランダウによる証明の概要を紹介する.はじめにξ=λx+μの形の変換を行って,区間[a,b]を区間[0,1]に変換しておく.ランダウ核
Dn(u)=(1−u^2)^n/2∫(1−u^2)^ndu
として,証明の目標は「閉区間a≦x≦bで連続な関数f(x)は多項式によって一様に近似することができる」=「任意のεに対し,常に|f(x)−P(x)|<εとなる多項式P(x)が存在する」を示すことにある.
証明は解析的で,かなり長くなるが
Pn(x)=∫f(u)Dn(x−u)du→f(x)
が示されQED.Pn(x)はxに関して2n次多項式になっている.
===================================
【4】確率密度関数
確率変数xが区間(-∞,∞)で定義されているとき,確率密度関数f(x)には次のような簡単な条件が要請されます.
f(x)≧0
∫(-∞,∞)f(x)dx=1
すなわち,確率密度関数は非負であって,積分すると1になる関数です(規格化条件).
もしも,負の値をとらない関数g(x)が積分値
∫(-∞,∞)g(x)dx=c<∞
をもつならば,関数f(x)=1/c*g(x)は全体の面積を1とした規格化が行われ,確率密度関数となる条件を満たします.このように非負で定積分値がわかっている関数は無数にあるわけですから,密度関数は数限りなく存在することになります.
なお,有限区間[a,b]で定義された連続密度関数g(x)に対しても,
h(x)=1 (a≦x≦b)
h(x)=0 (x<a, x>b)
なる関数を導入して,f(x)=g(x)h(x)とすれば確率密度関数を定義できます.関数h(x)はヘビーサイド関数,ディラックのデルタ関数あるいはインパルス関数とも呼ばれます.
また,離散分布に対しては,確率密度関数の代わりに,確率質量関数(probability mass function:PMF)なる用語がしばしば用いられます.離散分布の確率質量関数p(x)に対しても,インパルス関数を用いれば,無理やり確率密度関数として表すことができます.
q(x)=p(x)h(x)
h(x)=1 x=0,1,2,3,・・・
h(x)=0 x=not0,1,2,3,・・・
すなわち,連続分布,離散分布の相違は本質的なものではなく,単に見かけ上のことにすぎません.
確率分布について一般論を展開するときには,連続分布についてだけ議論して,積分∫dxを取り扱いますが,その裏では和の記号Σも並行しているものと諒解して頂きたいと存じます.
∫(-∞,∞)f(x)dx=1 ←→ Σp(x)=1
===================================