「統計処理及び機械学習に基づくデータマイニング勉強会 #02」に参加してきました

<a href="http://spml4dm.connpass.com/event/12022/">統計処理及び機械学習に基づくデータマイニング勉強会 #02 (2015/03/12 19:00〜)</a>統計処理及び機械学習に基づくデータマイニング勉強会 #02 - connpass　（2015.3.12）

梅染充男（@dr4caena）

東京都渋谷区恵比寿南3-5-7 代官山DGビル9F
株式会社デジタルガレージセミナールーム

発表者: ナビプラス株式会社宮本隆志（@tmiya_）

統計処理及び機械学習に基づくデータマイニング勉強会 #02 会場設営及び映像チェック大体完了〜 #spml4dm pic.twitter.com/7Vy57uTYve
— 梅染充男 (@dr4caena) March 12, 2015

前回までに、Anacondaのインストール、その他の事前準備（以下参照）が済んでいるものとして、

sudo pip install -U ipython
sudo pip install pyzmq tornado jinja2

cd ~/temp/
git clone https://github.com/takashi-miyamoto-naviplus/spml4dm.git

GitHub上の iPython Notebook 用ファイルが更新されたそうなので、以下を実行。

cd spml4dm/2
git fetch
git pull
ipython notebook

f:id:akiyoko:20150313014747p:plain

testing.ipynb をクリック。
f:id:akiyoko:20150313014759p:plain

以下、Notebook から抜粋。

二項分布の確率質量関数は pmf(x, N, p) を使う。

正規分布の確率分布関数は pdf(x, loc=平均, scale=標準偏差) を使う。

棄却すべきでない帰無仮説を間違って棄却してしまう誤りを、「第１種の誤り」と言います。
逆に、棄却すべき帰無仮説を間違って棄却できない誤りを、「第２種の誤り」と言います。

両方の誤りを減らしたいならば、サンプル数を増やす必要がある。
一般的に、サンプル数を増やすと、検出力（帰無仮説を棄却する確率）が上がる。
実際には、棄却できる（＝差が出る）までサンプルを多く取る場合が多い（本当は良くない！）。
最近では、「どのくらいの差を検出したいか考え、適切なサンプル数を求める」という実験計画が求められる。
- 例えば、仮定として「第2種の誤りの方が問題になりにくい場合は、検出力β=0.8程度はほしいとすると・・」等々

　
chi2.ipynb

f:id:akiyoko:20150313015814p:plain

χ二乗検定の方が仕事で使うかも。
- 例えば、広告の効果。
- 簡単に言うと、「コインを100回投げたところ、表が55回、裏が45回出た。このコインは表裏に偏りがあると考えるべきか？」

分割表の適合度検定
Python なら、chi2_contingency で分割表の計算が一発。
- 2×2 以上の m×n でも問題なし。
イェーツの補正
- 2×2 の分割表において、4つの頻度の中に5以下のものがある場合は、イェーツの補正をすべき。
- chi2_contingency 関数はデフォルトでイェーツ補正を行う。