■n点配置(その2)

 最小化したい目的関数としては,残差の絶対値の和(マンハッタン距離)

  s=Σ|yi−f(xi)|

も考えられ,その方が素朴で自然な発想であろうかと思われます.しかし,絶対値記号は数学的な扱いが面倒で,その解析は難しく,数学的処理の仕方からいえば,平方ユークリッド距離s=Σ(yi−f(xi))^2や標準化平方ユークリッド距離s=Σ1/σi^2・(yi−f(xi))^2がのほうが簡単です.前者はユークリッド距離を2乗したもの,すなわち,平方ユークリッド距離であり,残差の大きいデータ点ほどsの値に影響するので注意が必要です.この問題を解決するために,後者すなわち各データの分散の逆数で重み付けした標準化平方ユークリッド距離が用いられています.

===================================

 d次元空間において,どの2点間の距離も等しいn点集合を考える.ユークリッド距離の場合,nの最大値は

  n(d)=d+1

で与えられる.

 それではd次元マンハッタン距離の場合はどうか?

  n(d)≦100d^2

が成り立つという.

  [参]マトウシェク「33の素敵な数学小景」日本評論社

===================================

 最小2乗法の目的関数としては,ユークリッド距離が用いられていることを書きました.ところで,分類学とはある特徴に注目して種類をまとめていき,雑然としたものをスキのない整然とした体系に作り上げていく作業過程といえます.その際に欠かせない手法としては,判別分析やクラスター分析があげられます.これらは多変量解析の一種であり,データを総合的に解析し類似点を見いだして分類する試みですが,そのための目的関数としてマハラノビス距離やミンコフスキー距離がしばしば用いられます.マハラノビスはラマヌジャンの友人,ミンコフスキーはアインシュタインの先生です.

 贋作あるいは盗作と噂される著作物は洋の東西を問わず数多く存在し,紫式部の「源氏物語」の中の「宇治十帖」と呼ばれる後半の10巻は別人の作(源氏物語の作者は2人いた),シェークスピアはベーコンのペンネームだった(複数説もある),ノーベル文学賞を受賞したショーロホフの「静かなるドン」は盗作だった等々,贋作の噂は影のようにつきまとっています.「徒然草」の中にもどうしても吉田兼好の作品とは思えないものがあるといわれていますが,徒然草を全部コンピュータに入れて多変量解析して出てくる言葉の頻度を調べたらニセ物がわかる等々,多変量解析は真贋分析にも用いられています.

 あらゆる学問は分類に始まるといっても過言ではありません.似通ったものを寄せ集め,ひとつのまとまりとして把握し,似ていないものから区別する.判別分析・クラスター分析では,ある程度の変異はあるが連続的に変化しているように見え,中間的な値を持つような対象を取り扱うときに威力を発揮してくれます.しかし,お互いに極めてよく似ていて,ちょっと見ただけでは簡単に区別がつかないような対象の場合,多変量解析によってもどちらか判断できないものが残ってしまいます.著者は腫瘍組織の分類学にたずさわっていますが,腫瘍組織の分類学は,瑣末な特徴にこだわって種類を細かく分ける細分主義と些細な差異は気にせず大まかな差異だけに注目し,委細かまわずまとめていく統合主義の間で常に流動し,最終的には折衷案に落ち着かざるを得ないところがあります.それを利用する人間にとって細分類のしすぎは複雑となるだけで困惑を招くことが多いのですが,わたしが一連の研究で得た教訓は,「二つのものが違うことを証明するのは比較的たやすいが,二つのものが同じであることを証明するのは大変難しく,多大な労力が必要である.」ということでした.

 多変量解析では評価関数に1次式を使っていますが,1次式でいいかどうかはよくわかりません.おそらくいけないのでしょうが,それではどうすればよいのかがわからないので,今のところは1次式でやっているというのが実状と思われます.線形モデルを取り扱う多変量解析法の限界であり,普通の線形とは違うファジーな評価が可能な非線形多変量解析が望まれる所以です.

===================================