初学者向けの統計学関連本。
- 作者: 神永正博
- 出版社/メーカー: ディスカヴァー・トゥエンティワン
- 発売日: 2009/04/15
- メディア: 単行本(ソフトカバー)
- 購入: 18人 クリック: 294回
- この商品を含むブログ (117件) を見る
「架空」のデータを使って理論を説く入門書が少なくない中、身近なデータを数多く挙げて分かりやすく説明をしているという印象でした。
ただし、検証したい仮説にそぐわない(関連性の少ない)データもいくつか見せられるため、説明が少々回りくどくなってしまっているという感じも否めませんでした。
興味深いポイントがいくつかあったので、ピックアップしてみました。
「自分にとって重要な数字を頭に入れておく」
(cf. p.26)
なるほどなぁと思いました。
まずは、政府統計の総合窓口 (e-Stat) の主要統計。「国勢調査」を筆頭にいろいろチェックしておく必要がありそうです。
4. United Nations, Department of Economic and Social Affairs
世界人口(World Population Prospects, the 2012 Revision)など。
World Population Prospects, the 2012 Revision
パレート分布(べき分布)
(cf. p.123)
パレート分布については「極端な差が出やすい性質を持つ分布」などの説明があったのですが、いまいちよく分からなかったので調べてみました。
パレート分布は、べき乗則に従う「べき分布」のひとつに分類され、
パレート分布 の確率密度関数は、
で表されます。
極端な値をとるサンプルの数が(正規分布より)多く、そのため右側に長く裾を引く(右に歪んだ)分布となり、大きな値の側では裾野が正規分布より広い(ファット・テール)のが特徴である、とのこと。
また、平均や分散が存在しない(収束しない)場合があるのも特徴である、とのことです。以下のサイトが非常に参考になりました。www.newton-consulting.co.jp
なお、「パレート指数」は「べき分布の『極端なことの起こりにくさ』を表す指標」で、大きければ大きいほど極端なことが起こりにくいとのこと。
ワイブル分布
(cf. p.150)
試験結果でよく使われる「偏差値」ですが、(例えば、80年度共通一次試験のように)試験によっては、得点分布が正規分布から右か左に少しゆがんだ形になっているものがあり、正規分布の当てはまりが悪い場合があるらしく、そもそも偏差値という尺度が適切でないこともあるそうです。
事象の生起確率が一定という条件の下で、その事象が発生するまでの時間は確率変数とみなすことができ、その確率変数が従う分布は指数分布になるということが知られているが、ここで、事象の生起確率が対象とする期間内において変化する場合、その事象が発生するまでの時間を確率変数とみなすと、その確率変数が従う分布は指数分布ではなくワイブル分布となる。このような現象の例は日常生活にも多い。例えば、電化製品の故障率は観察する期間において常に一定というよりは時間を経ると共に上昇すると考えられる (経年劣化による故障率の上昇)。このような場合において、対象の電化製品が故障するまでの時間、すなわち電荷製品の寿命のモデル化には指数分布よりもワイブル分布が適しているといえる。
その他、さまざまな分布の特徴をまとめたもの。sites.google.com
相関係数
(cf. p.199)
相関係数は、データ同士の関係がどれだけ「まっすぐか」を表している。
なお、決定係数(相関係数の二乗)は、回帰直線(説明変数)による当てはめの精度をあらわす指標なので、
と求めることもできます。
ここで、残差の二乗は、
- 回帰直線がない場合には、基準変数の平均との差の二乗(すなわち分散)
- 回帰直線がある場合には、回帰直線との残差の二乗
となるので、 あとは計算するだけ。
従属人口指数
(cf. p.228)
従属人口指数は「働く人たち(生産年齢人口)が働かない人たち(従属年齢人口)を支えているかを示す指標」で、従属人口指数が下がる時期を「人口ボーナス期」、上がる時期を「人口オーナス期」と言う。
厚生労働省のサイトにて、他のいろいろな用語も解説されています。www.mhlw.go.jp