■ベンフォードの法則をめぐって

 コラム「オイラーの定数γをめぐって」では,ベンフォードの法則を取り上げました.たとえば,2のベキ乗2^nを順に並べてそれぞれの最大桁の数がk(1≦k≦9)である確率はn→∞のとき,

  log10((k+1)/k)

に収束することが知られています.

 今回のコラムでは,ワイルの均等分布定理を使って

  log10((k+1)/k)

を導出してみます.ますは再掲から・・・

===================================

【1】ベンフォードの法則

 1938年,GEの物理学者ベンフォードは対数表の対数表の最初が残りの部分よりもひどく汚れていることに気づき,「1ではじまる数が多いのはなぜか」という問題に説明を与えました.

 先頭の数字がどのような確率で出現するかを考えましょう.単純に各数字(0〜9)の出現確率が同じと考えれば,同じ確率1/9で現れるはずですが,実際には1から始まる数値が圧倒的に多く30%くらいもあります.

 たとえば,簡単な例として,2のベキ乗2^nを順に並べてそれぞれの最大桁の数を取り出すと

  2,4,8,16,32,64,128,256,512,1024,2048,・・・

  →2,4,8,1,3,6,1,2,5,1,2,・・・

となっているのですが,倍にした数が9で始まるためには,その前の数字が45−49で始まっていなければなりません.それに対して,5−9で始まる数はどれも倍にすると1で始まる数になります.そして,最大桁がk(1≦k≦9)である確率はn→∞のとき,

  log10((k+1)/k)

に収束することが知られています.

 したがって,最大桁の頻度は1が一番高く

  1→log102=0.3010,

以下,

  2→log103/2=0.1761,

  3→log104/3,

  ・・・・・・・・・,

  9→log1010/9=.0458

の順になるというわけです.

 このことは計算尺を見れば1で始まる数が全体の約30%を占めることとまったく同じで,逆に,9から始まる数値は4.5%程度まで落ちるのです.この現象はベンフォードの法則として知られていますが,実はアメリカの天文学者ニューカムが1881年に発見したのが最初ということです.

[補]フィボナッチ数の1000項までの最高位の数もこの法則に従っていることがわかります.

数     1   2   3  4  5  6  7  8  9

頻度  301 177 177 96 80 67 56 53 45

 フィボナッチ(Fibonacci)数列は,項比が黄金比に近づくという性質がなかに隠されている慨指数関数的増加数列なのですが,黄金比がギリシア文字のφで表されることから,phi-bonacci数列と呼ぶ人さえいます.

===================================

【2】ベンフォードの法則=尺度不変性

 1961年,数学者ビンカムは「尺度不変性があれば,ベンフォードの法則が成立する」ことを証明しました.尺度不変性(scale invariance)=パワー則ですが,驚いたことにベンフォードの法則はパワー則の表れ,すなわち,この世界には指数的に増加するものが多いということになります.

  [参]Havil著,新妻弘監訳「オイラーの定数ガンマ」共立出版

にしたがえば,N桁の数字までの累積分布をP(N)とすると

  p(k)=∫(k,k+1)P(N)dN

と表されるのですが,ベンフォードの法則はP(N)としてベキ指数1のジップ分布

  P(N)〜1/N

を仮定することにより

  p(k)=∫(k,k+1)P(N)dN=log10(1+1/k)

と再現できるというのです.

 それでは,最高位から2番目の数の出現頻度はどうなるか調べてみましょう.最高位の数がk1,次の位の数がk2となる確率は

  log10(1+1/k1k2)

ですから,

  Σlog10(1+1/kik2)

で与えられます.

 最高位から2桁目の数がk2である確率は

  0→0.1197,

  1→0.1139,

  2→0.1088,

  3→0.1043,

  ・・・・・・・・・,

  9→0.0850

となって,2桁目に最もよく出てくる数字は0ですが,個々の数字の出現確率にはあまり差がないことがわかかります.(第3の数字の確率はほとんど同じになり,第4桁以下は違いは認められないほどになる.)

===================================

【3】ワイルの均等分布定理

 まず,log102が無理数であることを証明する.有理数,したがって

  log102=p/q

と書けると仮定すると

  qlog102=p→2^q=10^p=2^p・5^p

同じ数について2通りの素因数分解ができることになり矛盾.

 2^Nの最初の桁がのとき,

  d×10^n≦2^N<(d+1)×10^n

  0≦log10d≦log10(2^N/10^n)<log10(d+1)≦1

  n=[log102^N]

  log10d≦[log102^N]<log10(d+1)

 ここで,ワイルの均等分布定理

 「任意の無理数αについて,{nα}=nα−[nα]は均等分布する」

より,

  P(log10d≦[log102^N]<log10(d+1))=log10(d+1)−log10d=log10((d+1)/d)

が得られる.

===================================