akiyoko blog

akiyoko の IT技術系ブログです

「統計処理及び機械学習に基づくデータマイニング勉強会 #02」に参加してきました

タイトル

統計処理及び機械学習に基づくデータマイニング勉強会 #02 - connpass (2015.3.12)


主催

梅染充男(@dr4caena


会場

東京都渋谷区恵比寿南3-5-7 代官山DGビル9F
株式会社デジタルガレージセミナールーム


Twitter





 

統計処理及び機械学習に基づくデータマイニング入門 第2回

発表者: ナビプラス株式会社 宮本隆志(@tmiya_



【講義】

  • 今回は、検定の基礎とχ二乗検定
  • 検定の参考文献(特にサンプルサイズについて)
    • 検定力分析入門(Rを使った入門書)

検定力分析入門

検定力分析入門

    • サンプルサイズの決め方(若干Advanced)

サンプルサイズの決め方 (統計ライブラリー)

サンプルサイズの決め方 (統計ライブラリー)

    • 伝えるための心理統計

伝えるための心理統計: 効果量・信頼区間・検定力

伝えるための心理統計: 効果量・信頼区間・検定力


【ハンズオン】

前回までに、Anacondaのインストール、その他の事前準備(以下参照)が済んでいるものとして、

sudo pip install -U ipython
sudo pip install pyzmq tornado jinja2

cd ~/temp/
git clone https://github.com/takashi-miyamoto-naviplus/spml4dm.git


GitHub上の iPython Notebook 用ファイルが更新されたそうなので、以下を実行。

cd spml4dm/2
git fetch
git pull
ipython notebook


f:id:akiyoko:20150313014747p:plain

testing.ipynb をクリック。
f:id:akiyoko:20150313014759p:plain



以下、Notebook から抜粋。

  • 二項分布の確率質量関数は pmf(x, N, p) を使う。
  • 正規分布の確率分布関数は pdf(x, loc=平均, scale=標準偏差) を使う。
  • 一般に有効数字を1桁増やすにはサンプル数が100倍必要になる。
  • 95%信頼区間
  • いちいち検定するより、95%信頼区間を出す方がぶっちゃけ楽。だけど、検定しか話が通じない人・場合もある。

棄却すべきでない帰無仮説を間違って棄却してしまう誤りを、「第1種の誤り」と言います。
逆に、棄却すべき帰無仮説を間違って棄却できない誤りを、「第2種の誤り」と言います。

  • 両方の誤りを減らしたいならば、サンプル数を増やす必要がある。
  • 一般的に、サンプル数を増やすと、検出力(帰無仮説を棄却する確率)が上がる。
  • 実際には、棄却できる(=差が出る)までサンプルを多く取る場合が多い(本当は良くない!)。
  • 最近では、「どのくらいの差を検出したいか考え、適切なサンプル数を求める」という 実験計画が求められる。
    • 例えば、仮定として「第2種の誤りの方が問題になりにくい場合は、検出力β=0.8程度はほしいとすると・・」等々



 
chi2.ipynb

f:id:akiyoko:20150313015814p:plain

  • χ二乗検定の方が仕事で使うかも。
    • 例えば、広告の効果。
    • 簡単に言うと、「コインを100回投げたところ、表が55回、裏が45回出た。このコインは表裏に偏りがあると考えるべきか?」
  • 分割表の適合度検定
  • Python なら、chi2_contingency で分割表の計算が一発。
    • 2×2 以上の m×n でも問題なし。
  • イェーツの補正
    • 2×2 の分割表において、4つの頻度の中に5以下のものがある場合は、イェーツの補正をすべき。
    • chi2_contingency 関数はデフォルトでイェーツ補正を行う。