三角関数の拡張（その８）

■三角関数の拡張（その８）

　２次元データ（ｘi ，ｙi ）に関数ｙ＝ｆ（ｘ）をあてはめるというデータ処理において，ｘの誤差が無視できる場合，実測値ｙi とその期待値ｆ（ｘi ）の差を残差といいます．実測値と曲線の鉛直方向の距離ｄi が残差ですが，残差２乗和

　　ｓ＝Σ（ｙi －ｆ（ｘi ））^2 ・・・・・・（１）

あるいは，これに重みｗi をつけた

　　ｓ＝Σｗi （ｙi －ｆ（ｘi ））^2 ・・・・（２）

を最小にする関数近似が最小２乗法（least square method）です．

　また，重みとは少し意味合いを異にするのですが，畳み込み積分における核について説明したいと思います．

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

【１】最尤法と重みつき最小２乗法

　最小２乗法は，ｘの誤差は無視できる場合の実測値とその期待値の差（残差）の２乗の和ｓ＝Σ（ｙi －ｆ（ｘi ））2 の値を最小とするようなパラメータの値を求めて推定値とするものでした．最小２乗法のほかに，関数モデルのパラメータの推定にもっともよく用いられる方法としては，最尤法（maximum likelihood method）があげられます．

　最尤推定量とは尤度関数の値を最大にする，あるいは同じことですが対数尤度関数の値を最大するパラメータの値で，分布形が特定されているときは，最尤法を用いてあてはめる関数の中に含まれるいくつかの未定係数を決定することができます．

　測定誤差が正規分布に従い，ｘ＝ｘi におけるｙの母分散をσi^2，すなわち，残差ｙi －ｆ（ｘi ）が正規分布Ｎ（０，σi^2）に従うと仮定すると，尤度関数Ｌは

　　Ｌ＝１／（２π）^n/2 Πσi ・ｅｘｐ（－Σ１／２σi^2（ｙi －ｆ（ｘi ））^2 ）

の形に表されます．尤度関数を最大にするためには，定数部分を省略すると，指数関数の引き数

　　ｓ＝Σ１／σi^2・（ｙi －ｆ（ｘi ））^2 ・・・・・（３）

すなわち，標準化平方ユークリッド距離を最小にすることと同じです．最尤法ではこのようにしてｙ＝ｆ（ｘ）に含まれる未定係数を定めますが，正規分布に従う量であることが前提となっています．誤差が正規分布に従うとき，その分布に対応した最尤推定法が最小２乗法であることがわかって頂けたでしょうか．

　最小２乗法と最尤法の大きな違いをあげると，最尤法では推定値を求めるためにデータの同時分布を特定化する必要がありますが，最小２乗法では誤差項の分布に関する仮定，たとえば，正規分布に従うといった詳しい仮定を行なわなくても利用できるというメリットがあり，また，最尤法に比べて式の計算が簡単になるという実用上の利点もあります．

　さらに，（３）式にもっと一般性をもたせるためには，個々のデータに信頼度に応じた適当な荷重ｗi を与えることにして，

　　ｓ＝Σｗi （ｙi －ｆ（ｘi ））^2 ・・・・（４）

を最小にすることを考えます．この方法は，最尤法から出発して尤度関数を最大にする条件と残差平方和を最小にする未定係数を求めるための条件を兼ね備えた回帰法であることから，重みつき最小２乗法または加重回帰と呼ばれています．重みつき最小２乗法では，データｙi の誤差や信頼度の大小に応じたウェイトｗi をつけることによって推定効率をあげることを目的としていて，それを用いることによって，外れ値の影響を受けにくいロバスト（頑健：robust）で最適な傾向線をフィットさせることができるようになります．

　誤差はｙのみにあるが，ｘの大きさによってｙの誤差が異なるような場合には，すべてのデータを同等に扱わず個々のデータの精度に応じた重みｗi をつける加重最小２乗解析がしばしば行われます．ｘの大きさにかかわらず，ｙの誤差は一定である場合の最小２乗解析は，ｗi ＝１とおくと（１）式に一致します．

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

【２】畳み込み積分と核

　関数Ｋn（ｕ）は，ｕ＝０でない点ではｎが大きくなればなるほど０に近づき，また，ｕ＝０を含む区間で積分すれば１になる関数とする．

　任意の関数ｆ（ｘ）に対して，積分

　　∫ｆ（ｕ）Ｋn（ｘ－ｕ）ｄｕ

を，ｆとＫnの畳み込み積分と呼ぶ．ｘ＝ｕの近傍でｆ（ｕ）の値はほとんど変わらないと考えられるから，積分の外にくくり出すことができて，ｎ→∞のとき，

　　∫ｆ（ｕ）Ｋn（ｘ－ｕ）ｄｕ→ｆ（ｘ）

に近づくので，ｆ（ｘ）の良い近似を与えるというわけである．

［１］ガウス・ワイエルシュトラス核

　　Ｗn（ｕ）＝√（ｎ／π）ｅｘｐ（－ｎｕ^2）

［２］ディリクレ核

　　Ｄn（ｕ）＝ｓｉｎ（ｎ＋１／２）ｕ／２πｓｉｎ（ｕ／２）

［３］フェイエール核

　　Ｆn（ｕ）＝｛ｓｉｎ（（ｎ＋１）ｕ）／２πｓｉｎ（ｕ／２）｝^2／２π（ｎ＋１）

　一般に，デルタ関数は

　　δ（ｕ）＝０，ｕ≠０

　　∫δ（ｕ）ｄｕ＝１　　（密度）

　　∫ｆ（ｕ）δ（ｘ－ｕ）ｄｕ→ｆ（ｘ）

という性質を持つ擬関数として定義される．

　　√（ｎ／π）ｅｘｐ（－ｎｕ^2）

や

　　ｎ／π（１＋ｎ^2ｘ^2），ｓｉｎｎｘ／πｘ

などはデルタ関数の直観的な導入のためによくあげられる．

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

【３】ランダウによるワイエルシュトラスの近似定理の証明

　任意の周期関数は三角級数近似できるというのがフーリエの定理であるのに対し，任意の関数は多項式で近似できるというのがワイエルシュトラスの近似定理である．

　ここではランダウによる証明の概要を紹介する．はじめにξ＝λｘ＋μの形の変換を行って，区間［ａ，ｂ］を区間［０，１］に変換しておく．ランダウ核

　　Ｄn（ｕ）＝（１－ｕ^2）^n／２∫（１－ｕ^2）^nｄｕ

として，証明の目標は「閉区間ａ≦ｘ≦ｂで連続な関数ｆ（ｘ）は多項式によって一様に近似することができる」＝「任意のεに対し，常に｜ｆ（ｘ）－Ｐ（ｘ）｜＜εとなる多項式Ｐ（ｘ）が存在する」を示すことにある．

　証明は解析的で，かなり長くなるが

　　Ｐn（ｘ）＝∫ｆ（ｕ）Ｄn（ｘ－ｕ）ｄｕ→ｆ（ｘ）

が示されＱＥＤ．Ｐn（ｘ）はｘに関して２ｎ次多項式になっている．

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

【４】確率密度関数

　確率変数xが区間(-∞,∞)で定義されているとき，確率密度関数f(x)には次のような簡単な条件が要請されます．

　　f(x)≧0

　　∫(-∞,∞)f(x)dx=1

すなわち，確率密度関数は非負であって，積分すると１になる関数です（規格化条件）．

　もしも，負の値をとらない関数g(x)が積分値

　　∫(-∞,∞)g(x)dx=c<∞

をもつならば，関数f(x)=1/c*g(x)は全体の面積を１とした規格化が行われ，確率密度関数となる条件を満たします．このように非負で定積分値がわかっている関数は無数にあるわけですから，密度関数は数限りなく存在することになります．

　なお，有限区間[a,b]で定義された連続密度関数g(x)に対しても，

　　h(x)=1 (a≦x≦b)

　　h(x)=0 (x<a, x>b)

なる関数を導入して，f(x)=g(x)h(x)とすれば確率密度関数を定義できます．関数h(x)はヘビーサイド関数，ディラックのデルタ関数あるいはインパルス関数とも呼ばれます．

　また，離散分布に対しては，確率密度関数の代わりに，確率質量関数（probability mass function:PMF）なる用語がしばしば用いられます．離散分布の確率質量関数p(x)に対しても，インパルス関数を用いれば，無理やり確率密度関数として表すことができます．

　　q(x)=p(x)h(x)

　　h(x)=1 x=0,1,2,3,･･･

　　h(x)=0　x=not0,1,2,3,･･･

すなわち，連続分布，離散分布の相違は本質的なものではなく，単に見かけ上のことにすぎません．

　確率分布について一般論を展開するときには，連続分布についてだけ議論して，積分∫ｄｘを取り扱いますが，その裏では和の記号Σも並行しているものと諒解して頂きたいと存じます．

　　∫(-∞,∞)f(x)dx=1 ←→ Σp(x)=1

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝