ｎ次元楕円をｍ次元空間に投影する（その２）

　ｎ次元楕円の投影問題は，元々，測定データのなかに飛び離れた値（外れ値：outlier）があるとき，棄却すべきか採択すべきかを判断する統計検定に由来しています．それを視覚化したものが確率楕円なのですが，確率楕円はたとえば９５％のデータ点を含むような楕円として描かれます．このような確率構造が入るのは，棄却検定という統計学上の問題が設定されているからなのです．

　主成分分析（ＰＣＡ）における第１主成分を表す直線（直交回帰直線）は，データ点のそれぞれからその直線に下した垂線も長さの２乗和を最小となるようにしたものです．これは第１主成分の分散を最大にすることに対応しています．直交回帰直線は算術平均を通り，計測値の集団の確率楕円の長軸に一致しますから，算術平均を中心として直交回帰直線を長軸とした楕円を描くと確率楕円が得られます．

　主成分分析は多変量データ解析において最も基本的な方法の一つですが，理解のためには固有値や固有ベクトルの知識が必要になります．これらについては（その１）をご参照願います．

　　ｆ（ｘ，μ，Σ）＝（２π）^(n/2)Σ^(-1/2)ｅｘｐ｛－（ｘ－μ）’Σ^(-1)（ｘ－μ）／２｝

によって与えられます．ここで，ｘ＝（ｘ1，・・・，ｘn）’はデータベクトル，μ＝（μ1，・・・，μn）’は平均ベクトル，Σはｎ×ｎ次の分散共分散行列を表します．

を中心として，ｎ次元正規分布するデータ点に対して，全体のｐ％がその内側に入るような確率のｎ次元楕円を定めるという問題を考えることにします．

ということになりますが，統計学では，ｘ’Ｈｘよりも分散・共分散行列Σを用いたｘ’Σ^(-1)ｘの形式の方が愛されているようです．以下，ＨとΣを適宜使い分けることにします．

により計算できます．とはいってもこのままでは計算は困難です．一般に，ｎ次元楕円

を直交座標系（Ｏ：ｘ1，ｘ2，ｘ3，・・・）での関数式で表すと交差項ｘiｘjが出現するため，取り扱いが厄介だからです．

　そこで，このｎ次元楕円は，座標変換により，別の直交座標系（ｏ：Ｘ1，Ｘ2，Ｘ3，・・・）において，以下のような標準形

で表されるものとします．ここで，Ｘi＝ｘi－μi，また，ａ，ｂ，・・・は楕円半径を表します．

と標準化すると，（ｙ1，・・・，ｙn）は球面上で一様分布する点，一方，当該の多重積分は

　ここで，直交座標でなく極座標，すなわち，被積分関数を原点を中心とする半径ｒの球面上で積分し，次にｒ＝０からｒ＝ｃまで積分をするのです．すると，半径ｒの球面上で被積分関数は一定値exp(-r^2)をとり，ｎ次元超球の体積をＶnとすると表面積はｎＶnｒ^(n-1)ですから，

　このように不完全ガンマ関数／ガンマ関数が現れましたから，結局，求めるｃ^2はガンマ分布の分布関数が

と表されることより，自由度ｎのχ^2分布の下側ｐ％点で与えられることになります．

　上の結果は，確率変数ｘが標準正規分布Ｎ（０，１）に従うとき，ｘ^2の分布は自由度１のχ^2分布，また，ｎ個の変数ｘiがすべてＮ（０，１）に従うならば，Σｘi^2は自由度ｎのχ^2分布になる，すなわち，

　それでは，ｘがｎ次元ｔ分布に従うとき，当該の問題の解はどのようになるのでしょうか？　確率変数ｘが自由度ｄｆのｔ分布に従うとき，ｘ^2の分布は自由度（１，ｄｆ）のＦ分布となります．

　数学の定理や命題において，１～３次元で成立することは一般次元でも同じように成立することが多いのですが，

などというでたらめを書かないように！．．．というわけで，解を導き出してみることにします．

と標準化して，正規分布の場合と同様に求めてみると，半径ｒの球面上で被積分関数は一定値(1+r^2/n)^((df+n)/2)をとりますから，

　このように，球面上で一様分布する点はベータ分布に密接に関係していることが示されます．この不完全ベータ関数は自由度（ｎ，ｄｆ）のＦ分布であり，また，ｃ^2／ｎまでの定積分ですから，全体のｐ％がその内側に入るような楕円を描くには，ｐを下側確率として

したがって，上記のｃ^2を自由度（ｎ，ｄｆ）のＦ分布の下側ｐ％点×ｎによって定めればよいことが理解されます．

　ｘがｎ次元正規分布に従い，その分散共分散行列がΣで表されるとき，ｎ次元楕円

　　(2)正規変量の２乗和を扱うときはχ^2円領域，ｔ変量の２乗和を扱うときは，それよりも一回り大きなＦ円領域を考えなければならない．

　　ｆ（ｙ1，ｙ2）＝｜Ａ｜^(1/2)／（２π）^(m/2)ｅｘｐ（－ｙ1’Ａｙ1／２）×｜Ｖ｜^(1/2)／（２π）^((n-m)/2)ｅｘｐ（－ｙ2’Ｖｙ2／２）

　このことは直観的にも明らかですから，答えはもうおわかりでしょうが，全体のｐ％がその内側に入るようなｎ次元の集中楕円をｍ次元空間に投影する場合，正規分布では

　例をあげて説明しましょう．ｎ次元正規分布に従う確率変数ｘをｎ次元楕円を（ｘi，ｘj）平面に投影する場合，当該の楕円を描くには，ｃ^2を自由度２のχ^2分布（すなわち，指数分布）によって，

と定めます．例えば，下側確率ｐ＝０．９５，０．９９を代入すると，それぞれｃ^2＝６．０，９．２．

　逆に，ｃ＝２のとき，ｐ＝０．８６５となりますから，λ1，λ2を小行列Ｏの固有値として，軸の長さが２√λ1，２√λ2の楕円を描くと，内側に８６．５％が含まれることになるのです．

　なお，これまでの説明で，（ｎ次元）正規分布やｔ分布を仮定することが難しいのではと思われた読者もおられるかもしれません．しかし，集中楕円では，厳密な分布にこだわる必要はなく，平均値付近にデータが集中しほぼ左右対称になるような場合には正規分布やｔ分布で近似してもそれほど違いを生じません．

　以下に２次元・３次元の場合の当該の値を掲げますが，ｍ次元空間に投影するとはいっても，最終的に表示するのはモニタ画面上ですから平面です．したがって，必要とされるのはｍ＝２のときの値ということになります．

　近似計算とはいっても，ｎ次元正規分布に従う場合の平面投影（ｍ＝２）のときは正確な値が求められますし，ｍ≧３の場合であっても相対誤差は％オーダーですから，実用的には十分な有効数字があります．

1430 IF DF1=1 THEN DF=DF2:PP=PP/2:GOSUB *T.PERCENT　　　　　　　　　　　　　　　　　　　　　　　　:UUF=UUT^2:PP=PP*2:RETURN

1440 IF DF2=1 THEN DF=DF2:PP=(1-PP)/2:GOSUB *T.PERCENT　　　　　　　　　　　　　　　　　　　　　　:UUF=1/UUT^2:PP=1-PP*2:RETURN

1560 IF DF=1 THEN PP=PP/2:GOSUB *NORMAL.PERCENT　　　　　　　　　　　　　　　　　　　　　　　　　:UUX=UUN*UUN:PP=PP*2:RETURN

　近似計算ではどうしても満足できず，正確な値を保証したい方は，コラム「超幾何関数を用いた確率分布の計算」に掲げたプログラムをご利用下さい．以下にその主要部分だけ掲げておきます．

　まず，復習から始めたいと思います．【１】【２】では集中楕円の問題を扱いましたが，多重ガウス積分は不完全ガンマ関数とになることより，ｎ次元超球では原点からの距離がｃの超球内に納まる確率は自由度ｎのχ^2分布で与えられることが計算されました．

　また，２次元平面に投影した場合，自由度２のχ^2分布はすなわち指数分布ですから，全体のｐ％がその内側に入るような超球の半径ｃは

によって与えられることがわかりました．例えば，ｃ＝１のときｐ＝０．３９４，ｃ＝２のときｐ＝０．８６５となり，半径が２の円を描くとその内側には８６．５％が含まれることになります．

　ここで，０．６８３，０．９５４はそれぞれ（１次元）正規分布の１σ，２σ点における中心確率です．すなわち，正規分布では，区間

の観測値が入ります．３σ点における中心確率は０．９９７となりますから，ほとんどの観測値が［μ－３σ，μ＋３σ］に入ることを利用して，工場では品質管理を行っています．それが３σ法で，有用なＱＣテクノロジーの１つになっています．

で与えられますが，多次元正規分布の場合，低次元の場合とは対照的に密度の裾にあたる領域に大部分のデータが存在することになります．

　１次元であれば３σを外れる確率はわずか千に三つにすぎないのですが，高次元化に伴い次第に中心部は過疎化し，１０次元では半分以上が３σの郊外に移り住み，３０次元では９９％以上が裾の領域に集まるという結果になるのです．

　さて，変数ｘiはそれぞれ独立に（１次元）正規分布またはｔ分布に従うと考えられますから，この節では全体のｐ％がその内側に入るような超立方体を描く方法について考えてみることにします．

　この問題は，統計学ではよく知られたボンフェローニ・シダック問題であって，１回の検定の有意水準をｐ0とすると，ｎ回の検定を繰り返すことによって生じる推論全体での有意水準をｐに保つには，

に定めてから，２次元平面上に投影すればよいことになるのですが，【４】のサブルーチンを使うならば，

といった書式になります．集中楕円の描き方とは，かなり異なることがおわかり頂けたでしょうか？　

　誤解を招くといけませんから，ニワトリが先かタマゴが先かという話をしておきます．統計学では，個々の母数に対する個別の信頼区間は容易に作ることができますが，たとえば，２つ（３つ）の母数が存在する場合，その同時信頼区間は長方形（直方体）領域で与えられるものではなく，楕円（楕円体）領域となります．

　すなわち，統計学では，集中楕円体として得られるはずの母数空間を集中多面体で近似することが頻繁に行われているのです．厳密な意味では，集中楕円体が基にあり，集中多面体は集中楕円体を近似するための単なる思いつきの産物ということになりましょう．