akiyoko blog

akiyoko の IT技術系ブログです

日本統計学会認定「統計検定2級」に合格しました

先月11月30日に、統計検定2級を受検してきました。

http://www.toukei-kentei.jp/about/grade2.html

そして先日、Web合格発表がアップされ、自身の合格を確認したので、これまでの経緯を書いてみたいと思います。自己採点で正答率74%だったので、まあ大丈夫だろうと思っていましたが、やはり嬉しいものですね。


なお、今回の統計検定2級の合格率は、これまでとほぼ同水準でした。
申込者数: 2267
受験者数: 1625
合格者数: 698
合格率: 42.95 %
http://www.toukei-kentei.jp/exam/exam141130/web.html より)


合格者発表以外にも、成績優秀者には「評価S」「評価A」という発表もあったのですが、 残念ながらそちらには含まれていませんでした。。

気になったので、それぞれの該当人数を数えてみたところ、

  • 評価S: 32人
  • 評価A: 98人

だったので、

  • 評価S ・・・1625人中上位 1.97% (z得点≒2.06) なので、偏差値70以上
  • 評価A ・・・1625人中上位 6.03% (z得点≒1.55) なので、偏差値65以上

をおそらくランク付けしたものと推測されます。





受検のきっかけ

統計検定を知ったきっかけは、11月から受講していた gacco の「統計学Ⅰ:データ分析の基礎」で取り上げられていたからです。
こちらは、日本統計学会が講座を提供しており、講座内容が統計検定準拠(3級と2級の間のレベルを想定)とされています。


そしてちょうどこの秋に、

を題材にした統計学の社内勉強会が終わったところだったので、その総仕上げとして受検してみようと思ったのがきっかけでした。



試験範囲

以下を出題範囲として、制限時間90分で(例年通りであれば)35問のマークシート選択式の試験が行われます。


大項目 中項目 小項目(学習しておくべき用語)
データソース 身近な統計 調べる場合のデータソース、公的統計など
データの分布 データの分布の記述 質的変数(カテゴリカル・データ)、量的変数(離散値、連続値)、棒グラフ、円グラフ、幹葉図、度数分布表・ヒストグラム、累積度数グラフ、分布の形状(右に裾が長い、左に裾が長い、対称、ベル型、一様、単峰、多峰)
1変数データ 中心傾向の指標 平均値、中央値、最頻値(モード)
ばらつきの指標 分散(n-1で割る)、標準偏差、範囲(最小値、最大値)、四分位範囲(四分位偏差)、箱ひげ図、ローレンツ曲線、2つのグラフの視覚的比較、カイ二乗値(一様な頻度からのずれ)
中心とばらつきの活用 偏差、標準化(z得点)、変動係数、指数化
2変数データ 散布図と相関 散布図、相関係数、共分散、層別した散布図、相関行列、みかけの相関(擬相関)、偏相関係数
カテゴリカルデータ 度数表、2元クロス表
データの活用 単回帰と予測 最小二乗法、変動の分解、決定係数、回帰係数、分散分析表、観測値と予測値、残差プロット、標準誤差、変数変換
時系列データの処理 成長率、指数化、幾何平均、系列相関・コレログラム、トレンド、平滑化(移動平均)
推測のためのデータ収集法 観察研究と実験研究 観察研究、実験、調査の設計、母集団、標本、全数調査、標本調査、ランダムネス、無作為抽出
標本調査と無作為抽出 標本サイズ(標本の大きさ)、標本誤差、偏りの源、標本抽出法(系統抽出法、層化抽出法、クラスター抽出法、多段抽出法)
実験 実験のデザイン(実験計画)、フィッシャーの3原則
確率モデルの導入 確率 事象と確率、加法定理、条件付き確率、乗法定理、ベイズの定理
確率変数 離散型確率変数、連続型確率変数、確率変数の期待値・分散・標準偏差、確率変数の和と差(同時分布、和の期待値・分散)、2変数の共分散・相関
確率分布 ベルヌーイ試行、二項分布、ポアソン分布、幾何分布、一様分布、指数分布、正規分布、2変量正規分布
推測 標本分布 独立試行、標本平均の期待値・分散、チェビシェフの不等式、大数の法則、中心極限定理、二項分布の正規近似、連続補正、母集団、母数(母平均、母分散)
標準正規分布、標準正規分布表の利用、t分布、カイ二乗分布、F分布分布表の活用、上側確率点(パーセント点)
推定 点推定、推定量と推定値、有限母集団、一致性、不偏性、信頼区間、信頼係数
正規母集団の母平均・母分散の区間推定、母比率の区間推定、相関係数の区間推定
正規母集団の母平均の差・母分散の比の区間推定、母比率の差の区間推定
仮説検定 仮説検定の理論、p値、帰無仮説(H0)と対立仮説(H1)、両側検定と片側検定、第1種の過誤と第2種の過誤、検出力
母平均の検定、母分散の検定、母比率の検定
母平均の差の検定(分散既知、分散未知であるが等分散、分散未知で等しいとは限らない場合)、母分散の比の検定、母比率の差の検定
適合度検定、独立性の検定
線形モデル 回帰分析 回帰直線の傾きの推定と検定、重回帰モデル、偏回帰係数、回帰係数の検定、多重共線性、ダミー変数を用いた回帰
実験計画の概念の理解 実験、処理群と対照群、反復、ブロック化、一元配置実験、3群以上の平均値の差(分散分析)、F比
活用 統計ソフトウェアの活用 計算出力を活用できるか、問題解決に活用できるか

(「統計検定2級出題範囲表」より)


 

勉強方法

2級の問題集は現在のところ、この一冊しか出版されていません。


試験直前の1週間から、この問題集に掲載されている3回分の試験を実際に90分で解き、解説を読んで、重要な部分をまとめていきました。

(2017/5/12 追記)

最新版となる、2014~2015年版の公式問題集が 3月に発売されたようです。
これから受検するなら、この問題集が必須となるでしょう。



以下のような、統計検定の公式参考書もあったのですが、


Amazon の評価が高くなかったので、購入は見送りました。
その代わり、社内勉強会で使っていた、

の本を参照するようにしたのですが、2級の試験範囲がちょうど同じだったので、結果的にそれが自分にマッチしたようでした。



あと、統計検定では試験時に電卓を使ってよいのですが、電卓を使う場面がちょくちょくあって、電卓の使い方(特に「M+」とか)にも慣れていないとダメだなと感じました。
ちなみに、表示桁数が多い電卓(12桁以上のもの)を買った方がよいでしょう。



 

まとめ

以下、重要ポイントのまとめです。
参照ページは、統計学入門(基礎統計学)のページ数を記載しています。

 

確率

順列・組み合わせ

{ \displaystyle
{}_nP_r=\frac{n!}{(n-r)!}
}


{ \displaystyle
{}_nC_r=\frac{{}_nP_r}{r!}
}


例えば、

{ \displaystyle
{}_3P_2=\frac{3\times 2\times 1}{1}=6
}

{ \displaystyle
{}_3C_2=\frac{6}{2\times 1}=3
}


 

ベイズの定理

ある事象Aが発生した条件下で別の事象Hが発生した事後確率を求める方法。

{ \displaystyle
事後確率=\frac{同時確率}{事前確率}
}


{ \displaystyle
P(H|A)=\frac{P(H \cap A)}{P(A)}
}

cf. p.84

ベイズの定理(入門編) - Pashango’s Blog」の解説が分かりやすい。


例えば、取り出したのが白玉 {(A)} という条件下で、それが第一のつぼから取り出したものであった {(H)} という事後確率は、


{ \displaystyle
P(H|A)=\frac{第一のつぼを選ぶ確率 \times 第一のつぼから白玉が取り出される確率}{白玉が取り出される全確率}
}

となる。


 

確率分布

二項分布

ある事象が起きるか起きないかのどちらかの結果しか生じない独立施行における、事象の発生回数の確率分布。

{ \displaystyle
E(X)=np
}


{ \displaystyle
V(X)=np(1-p)
}

cf. p.111


 

ポアソン分布

ランダムに発生する事象が一定時間内に起こる回数の確率分布。

期待値と分散が等しくなるのが特徴


{ \displaystyle
E(X)=\lambda
}


{ \displaystyle
V(X)=\lambda
}

cf. p.114


 

一様分布

{ \displaystyle
E(X)=\frac{N+1}{2}
}


{ \displaystyle
V(X)=\frac{N^2-1}{12}
}

cf. p.119


 

記述統計学

分散

偏差の二乗の総和を標本の大きさで割ったもの


{ \displaystyle
\sigma^2=\frac{\Sigma(x_{i}-\overline{x})^2}{n}
}


 

変動係数

相対的なばらつきを表す。

標準偏差と平均の比


{ \displaystyle
C.V.=\frac{\sigma}{\overline{x}}
}

cf. p.38

例えば、男性 : 60 ± 12 kg(変動係数 20%)、女性 : 40 ± 10 kg(変動係数 25%)などと使う。


 

標準化

平均が0、標準偏差が1となるように z変換する。

平均値との差を標準偏差で割ったもの。


{ \displaystyle
z_{i}=\frac{x_{i}-\mu}{\sigma}
}

cf. p.38


標準化すると何ができるのか?
  ↓
標準得点 (z) と標準正規分布を照合できるので、

  • {\mu}{\sigma} が既知の場合、その状況がどのくらいの確率で発生したのか
  • {\mu} が未知の場合、母平均の信頼区間

を求めることができる。


 

相関係数(ピアソンの積率相関係数)

x と y の共分散をそれぞれの標準偏差の積で割ったもの


{ \displaystyle
r_{xy}=\frac{\Sigma(x_{i}-\overline{x})(y_{i}-\overline{y})/n}{\sqrt{\Sigma(x_{i}-\overline{x})^2/n}\sqrt{\Sigma(y_{i}-\overline{y})^2/n}}=\frac{{S_{xy}}^2}{S_{x}S_{y}}
}

cf. p.49


 

統計的推測

標準誤差

標本分布の標準偏差。(「標本平均の標準偏差」という表現は間違い。)

標本分布の標準偏差は、母標準偏差と比べて {\frac{1}{\sqrt{n}}} 倍に縮む


{ \displaystyle
S.E.=\frac{\sigma}{\sqrt{n}} (n が十分大きい場合は \frac{s}{\sqrt{n}} と推定できる)
}


 

信頼区間

正規母集団の母平均の信頼区間


{\sigma}^2 が既知の場合


{ \displaystyle
[\overline{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \overline{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}} ]
}



{\sigma}^2 が未知の場合(s^2 を標本不偏分散とすると)


{ \displaystyle
[\overline{X}-t_{\alpha/2}(n-1)\frac{s}{\sqrt{n}}, \overline{X}+t_{\alpha/2}(n-1)\frac{s}{\sqrt{n}} ]
}

cf. p.226


例えば、信頼係数 (1-{\alpha}) が 95% の場合は

{ \displaystyle
[\overline{X}-1.96\times\frac{\sigma}{\sqrt{n}}, \overline{X}+1.96\times\frac{\sigma}{\sqrt{n}} ]
}

となる。


また、(視聴率や内閣支持率など)二項母集団の母比率の信頼区間は、
母比率 p の不偏推定量 {\hat{p}} を標本比率 {\frac{X}{n}=\frac{X_{1}+...+X_{n}}{n}} とおくと、
n が十分に大きいならば、{\hat{p}} は近似的に {N(p, \frac{p(1-p)}{n})} の正規分布に従うので(ラプラスの定理)、

{ \displaystyle
[\hat{p}-z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p}+z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} ]
}

となる。
つまり、標本比率の場合は、{\sigma} の推定量として {\sqrt{\hat{p}(1-\hat{p})}} が利用できる。


 

第一種・第二種の誤り

第一種の誤り・・・対立仮説が間違っているのに、誤って対立仮説を採択してしまうケース(その確率は「危険率」と同じ)。生産者のリスク


第二種の誤り・・・帰無仮説が間違っているのに、誤って帰無仮説を採択してしまうケース。消費者のリスク

cf. p.236


 

母平均の t 検定

母平均の両側検定(分散 {\sigma^2} が未知の場合)


(1) {H_0: \mu=\mu_0}, {H_1: \mu\neq\mu_0}とする


(2) スチューデントの t 統計量を求める

{ \displaystyle
t=\frac{\overline{x}-\mu}{s/\sqrt{n}}
}


(3) 自由度 n-1 の t分布の 2.5%点・97.5%点を求める


(4) (2)が(3)の外側(棄却域)か内側(採択域)かを判定

  • 外側(棄却域) ⇒ 有意
  • 内側(採択域) ⇒ 有意でない

cf. p.240


 

2標本の t 検定

2つの正規母集団の母平均の差の両側検定(両母集団の分散が等しい場合)


(1) {H_0: \mu_1=\mu_2}, {H_1: \mu_1\neq\mu_2}とする


(2) スチューデントの t 統計量を求める

{ \displaystyle
s^2=\frac{(m-1)s_1^2+(n-1)s_2^2}{m+n-2}
}


{ \displaystyle
t=\frac{\overline{X}-\overline{Y}}{s\sqrt{\frac{1}{m}+\frac{1}{n}}}
}


(3) 自由度 m+n-2 の t分布の 2.5%点・97.5%点を求める


(4) (2)が(3)の外側(棄却域)か内側(採択域)かを判定

  • 外側(棄却域) ⇒ 有意
  • 内側(採択域) ⇒ 有意でない

cf. p.242


 

適合性・独立性の {\chi^2} 検定

{ \displaystyle
\chi^2=\Sigma\frac{(O-E)^2}{E}
}