akiyoko blog

akiyoko の IT技術系ブログです

「不透明な時代を見抜く「統計思考力」」を読んだ

初学者向けの統計学関連本。

不透明な時代を見抜く「統計思考力」

不透明な時代を見抜く「統計思考力」


「架空」のデータを使って理論を説く入門書が少なくない中、身近なデータを数多く挙げて分かりやすく説明をしているという印象でした。

ただし、検証したい仮説にそぐわない(関連性の少ない)データもいくつか見せられるため、説明が少々回りくどくなってしまっているという感じも否めませんでした。



興味深いポイントがいくつかあったので、ピックアップしてみました。

「自分にとって重要な数字を頭に入れておく」

(cf. p.26)

なるほどなぁと思いました。


まずは、政府統計の総合窓口 (e-Stat) の主要統計。「国勢調査」を筆頭にいろいろチェックしておく必要がありそうです。

1. 政府統計の総合窓口 (e-Stat)

政府統計の総合窓口 (e-Stat) - 主要な統計から探す


巻末の「統計・文献ガイド」からいくつか引用。

2. 科学技術要覧

科学技術要覧:文部科学省


3. 国立社会保障・人口問題研究所

国立社会保障・人口問題研究所


4. United Nations, Department of Economic and Social Affairs

世界人口(World Population Prospects, the 2012 Revision)など。
World Population Prospects, the 2012 Revision


5. OECD加盟国のデータ

OECD Data



ジニ係数は万能ではない

(cf. p.88)

ジニ係数は「格差」を表す指標ではあるが、「格差が問題になっているかどうか」までは分からないということですね。なるほど。



ポアソン分布

(cf. p.95)

ポアソン分布は、「稀にしか起こらない互いにまったく無関係の事件(事象)が、一定期間に何回起こるかを記録すると現れる分布」。

期待値と分散が等しくなるのが特徴。

{ \displaystyle
E(X)=\lambda
}


{ \displaystyle
V(X)=\lambda
}



 

パレート分布(べき分布

(cf. p.123)

パレート分布については「極端な差が出やすい性質を持つ分布」などの説明があったのですが、いまいちよく分からなかったので調べてみました。


パレート分布は、べき乗則に従う「べき分布」のひとつに分類され、
パレート分布 {Par(\alpha, \beta)}確率密度関数は、

{ \displaystyle
f(x)=\frac{\beta\alpha^\beta}{x^{\beta+1}}
}


{ \displaystyle
確率変数 x の範囲は、
\alpha\leq x<\infty
}

で表されます。


極端な値をとるサンプルの数が(正規分布より)多く、そのため右側に長く裾を引く(右に歪んだ)分布となり、大きな値の側では裾野が正規分布より広い(ファット・テール)のが特徴である、とのこと。

bio-info.biz


また、平均や分散が存在しない(収束しない)場合があるのも特徴である、とのことです。以下のサイトが非常に参考になりました。www.newton-consulting.co.jp


なお、「パレート指数」は「べき分布の『極端なことの起こりにくさ』を表す指標」で、大きければ大きいほど極端なことが起こりにくいとのこと。




見せかけの循環

(cf. p.132)

「ユール=スルツキー効果」とも言われる。

規則性がなくランダムに動く相場も、移動平均のような操作をすると周期変動が起こりうる。

合理的群衆行動の法則とユール・スルツキー効果 - りおパパの日記


 

ワイブル分布

(cf. p.150)

試験結果でよく使われる「偏差値」ですが、(例えば、80年度共通一次試験のように)試験によっては、得点分布が正規分布から右か左に少しゆがんだ形になっているものがあり、正規分布の当てはまりが悪い場合があるらしく、そもそも偏差値という尺度が適切でないこともあるそうです。

事象の生起確率が一定という条件の下で、その事象が発生するまでの時間は確率変数とみなすことができ、その確率変数が従う分布は指数分布になるということが知られているが、ここで、事象の生起確率が対象とする期間内において変化する場合、その事象が発生するまでの時間を確率変数とみなすと、その確率変数が従う分布は指数分布ではなくワイブル分布となる。このような現象の例は日常生活にも多い。例えば、電化製品の故障率は観察する期間において常に一定というよりは時間を経ると共に上昇すると考えられる (経年劣化による故障率の上昇)。このような場合において、対象の電化製品が故障するまでの時間、すなわち電荷製品の寿命のモデル化には指数分布よりもワイブル分布が適しているといえる。


ワイブル分布について


その他、さまざまな分布の特徴をまとめたもの。sites.google.com




 

相関係数

(cf. p.199)

相関係数は、データ同士の関係がどれだけ「まっすぐか」を表している。


なお、決定係数(相関係数の二乗)は、回帰直線(説明変数)による当てはめの精度をあらわす指標なので、

{ \displaystyle
決定係数=1-\frac{回帰直線がある場合の残差の二乗}{回帰直線がない場合の残差の二乗}
}

と求めることもできます。

ここで、残差の二乗は、

  • 回帰直線がない場合には、基準変数の平均との差の二乗(すなわち分散)
  • 回帰直線がある場合には、回帰直線との残差の二乗

となるので、 あとは計算するだけ。



従属人口指数

(cf. p.228)

従属人口指数は「働く人たち(生産年齢人口)が働かない人たち(従属年齢人口)を支えているかを示す指標」で、従属人口指数が下がる時期を「人口ボーナス期」、上がる時期を「人口オーナス期」と言う。

{ \displaystyle
従属人口指数=\frac{従属年齢人口}{生産年齢人口}\times100=\frac{年少人口+老年人口}{生産年齢人口}\times100
}


厚生労働統計に用いる主な比率及び用語の解説|厚生労働省


 
厚生労働省のサイトにて、他のいろいろな用語も解説されています。www.mhlw.go.jp