タイトル
統計処理及び機械学習に基づくデータマイニング勉強会 #02 - connpass (2015.3.12)
主催
梅染充男(@dr4caena)
会場
東京都渋谷区恵比寿南3-5-7 代官山DGビル9F
株式会社デジタルガレージセミナールーム
統計処理及び機械学習に基づくデータマイニング入門 第2回
発表者: ナビプラス株式会社 宮本隆志(@tmiya_)
統計処理及び機械学習に基づくデータマイニング勉強会 #02 会場設営及び映像チェック大体完了〜 #spml4dm pic.twitter.com/7Vy57uTYve
— 梅染 充男 (@dr4caena) March 12, 2015
【講義】
- 今回は、検定の基礎とχ二乗検定
- 検定の参考文献(特にサンプルサイズについて)
- 検定力分析入門(Rを使った入門書)
- 作者: 豊田秀樹
- 出版社/メーカー: 東京図書
- 発売日: 2009/11/10
- メディア: 単行本(ソフトカバー)
- 購入: 6人 クリック: 173回
- この商品を含むブログ (8件) を見る
-
- サンプルサイズの決め方(若干Advanced)
- 作者: 永田靖
- 出版社/メーカー: 朝倉書店
- 発売日: 2003/09/28
- メディア: 単行本(ソフトカバー)
- 購入: 20人 クリック: 277回
- この商品を含むブログ (14件) を見る
-
- 伝えるための心理統計
- 作者: 大久保街亜,岡田謙介
- 出版社/メーカー: 勁草書房
- 発売日: 2012/01/26
- メディア: 単行本
- 購入: 9人 クリック: 164回
- この商品を含むブログ (13件) を見る
【ハンズオン】
前回までに、Anacondaのインストール、その他の事前準備(以下参照)が済んでいるものとして、
sudo pip install -U ipython sudo pip install pyzmq tornado jinja2 cd ~/temp/ git clone https://github.com/takashi-miyamoto-naviplus/spml4dm.git
GitHub上の iPython Notebook 用ファイルが更新されたそうなので、以下を実行。
cd spml4dm/2 git fetch git pull ipython notebook
testing.ipynb をクリック。
以下、Notebook から抜粋。
- 一般に有効数字を1桁増やすにはサンプル数が100倍必要になる。
- 95%信頼区間
- いちいち検定するより、95%信頼区間を出す方がぶっちゃけ楽。だけど、検定しか話が通じない人・場合もある。
棄却すべきでない帰無仮説を間違って棄却してしまう誤りを、「第1種の誤り」と言います。
逆に、棄却すべき帰無仮説を間違って棄却できない誤りを、「第2種の誤り」と言います。
- 両方の誤りを減らしたいならば、サンプル数を増やす必要がある。
- 一般的に、サンプル数を増やすと、検出力(帰無仮説を棄却する確率)が上がる。
- 実際には、棄却できる(=差が出る)までサンプルを多く取る場合が多い(本当は良くない!)。
- 最近では、「どのくらいの差を検出したいか考え、適切なサンプル数を求める」という 実験計画が求められる。
- 例えば、仮定として「第2種の誤りの方が問題になりにくい場合は、検出力β=0.8程度はほしいとすると・・」等々
chi2.ipynb
- χ二乗検定の方が仕事で使うかも。
- 例えば、広告の効果。
- 簡単に言うと、「コインを100回投げたところ、表が55回、裏が45回出た。このコインは表裏に偏りがあると考えるべきか?」