Bruce Frey(鴨澤眞夫監訳、西沢直木訳)『Statistics Hacks 統計の基本と世界を測るテクニック』

Statistics Hacks ―統計の基本と世界を測るテクニック

オライリーの統計本ということで、初心者向けの入門書と専門書の中間くらいのトーンで、忘れかけている統計のエッセンスを楽をして思い出せるような都合のいい本を想定していたのだが、統計学を体系立てて学ぶ人向けというよりユーザとして用いる人向けに興味深い話題をちりばめたような本だった。まあ、まさにオライリーらしい本だ。

初心者向けの統計本の常としてどちらかというと確率論の範疇に入るような話題が多く含まれている。その部分になかなか興味深い話題が多くて、たとえば、iTunesが曲を再生する順番、他人の考えを操る方法、自然界の数値の先頭の数字がどのように分布しているか(1になる確率が3割程度で、2,…,9となるに従って確率は減ってゆく)などなど。一応統計についても、中心極限定理、正規分布、仮説検定、相関、カイ二乗検定、t検定、単純回帰、重回帰など初歩は一通り網羅されている。

こうあらためて確率、統計に触れてみると、そのおもしろさは数値に対するフェティシズムにあるということがわかる。早速、再学習の成果をフェティッシュを対象にしていかしてみることにしよう。

HACK#61 月ごとの散歩の距離

ぼくが散歩で歩いた距離を月ごとに集計してみたら興味深い字事実が明らかになった。全体を通しての平均は8.63kmだが、2月だけをみると9.34kmと突出して長く、8月だけをみると7.91kmと突出して短い。さてここで問題。この2月と8月の平均の差は有意なものといえるだろうか?あるいは単なる偶然だろうか?統計量は以下の通り。

<th>
  回数
</th>

<th>
  平均距離
</th>

<th>
  分散
</th>
<td>
  78
</td>

<td>
  9.34
</td>

<td>
  4.24
</td>
<td>
  85
</td>

<td>
  7.91
</td>

<td>
  3.06
</td>
2月
8月

こういうときはt検定。t値を求めると4.75だった。自由度は151。これらでt分布表をひくと、95%の有意水準も、99%も容易にクリア。したがって、2月と8月の平均の差がないという帰無仮説は却下され、寒い2月にたくさん歩いて、暑い8月は歩けていないということが証明された。