「統計処理及び機械学習に基づくデータマイニング勉強会 #03」に参加してきました

タイトル

<a href="http://spml4dm.connpass.com/event/13133/">統計処理及び機械学習に基づくデータマイニング勉強会 #03 (2015/04/09 19:00〜)</a>統計処理及び機械学習に基づくデータマイニング勉強会 #03 - connpass　（2015.4.9）

主催

梅染充男（@dr4caena）

会場

東京都渋谷区恵比寿南3-5-7 代官山DGビル9F
株式会社デジタルガレージセミナールーム

統計処理及び機械学習に基づくデータマイニング入門　第3回

発表者: ナビプラス株式会社宮本隆志（@tmiya_）

勉強会当日の夕方、恵比寿のCoCo壱番で火事があったそうで。
会場へはいつものように恵比寿駅から向かったのですが、消防車が何台も止まっていたものの、鎮火は終わっていたもよう。

恵比寿駅前のココイチが火事だ！ pic.twitter.com/CuC1YqPnZf
— ミツザライト (@mitsutakam) 2015, 4月 9

【講義】

今日話す内容
- χ二乗検定の別の例：Bradley-Terryモデル
- 多腕バンディット問題

参考文献
東大教養学部統計学教室編
- 基礎統計学Ⅰ-Ⅲ「統計学入門」「自然科学の統計学」「人文・社会科学の統計学」

統計学入門 (基礎統計学)

作者: 東京大学教養学部統計学教室
出版社/メーカー: 東京大学出版会
発売日: 1991/07/09
メディア: 単行本
購入: 158人クリック: 3,604回
この商品を含むブログ (82件) を見る

多腕バンディット問題
- John Myles White「バンディットアルゴリズムによる最適化手法」

Bandit Algorithms for Website Optimization

作者: John Myles White
出版社/メーカー: O'Reilly Media
発売日: 2012/12/10
メディア: Kindle版
この商品を含むブログを見る

他は、「Multi-Armed Bandit」で検索や！

Bradley-Terryモデル

χ二乗検定を分割表以外で使う
Bradley-Terryモデルは、比較結果を予測するためのモデル
- セ・リーグ対戦結果から、チームiがチームjに勝つ確率pij
- 式の導出元は、オッズ比 p/1-p の対数を考える
  - 「オッズ比」はロジスティック回帰分析でよく出てくる用語
ただし、Bradley-Terryモデルは「３すくみ関係が無い」と仮定

Bradley-Terryモデルとは？

http://kasuya.ecology1.org/stats/BT201103web.pdf
の野球を例にした説明が、今回の内容とほぼ同じで分かりやすかったです。

これによると、Bradley-Terryモデルの利点は、

各オブジェクトの強さが定量的に推定できる
推定誤差が得られる
尤度に基づく検定やモデル選択が使える

等々とのこと。

他にもサッカーを例にしたものもありました。
http://www.ise.chuo-u.ac.jp/ise-labs/taguchi-lab/pdf/bachelor/2006/r2006_tamura.pdf

多腕バンディット問題

スロットマシンの例で考える

スロットマシンがn台ある。

各スロットi(i=1,⋯,n)は確率piで報酬1、確率 1−pi で報酬 0 を与える。

確率 pi は時間的に変動しない。

確率 pi は不明であり、自分で試して得られた報酬から推測する他はない。

上記の状況のもとで、最大の収益を得られる戦略を考えよ。

http://www.computer-igo.com/category1/entry7.html
の解説が分かりやすいかも。

一つ目のグラフは、平均的な儲け
- 当たり前だが、0.5と0.6の間に入るはず。
Thompson Samplingは、ベイズ的に考えたアルゴリズム

参考

Google アナリティクスでは、ウェブテストの手法として多腕バンディット方式を採用<a href="https://support.google.com/analytics/answer/2844870?hl=ja">多腕バンディットテスト - アナリティクスヘルプ</a>support.google.com

【ハンズオン】

まず前提として、Anacondaのインストール、および

sudo pip install -U ipython
sudo pip install pyzmq tornado jinja2

cd ~/temp/
git clone https://github.com/takashi-miyamoto-naviplus/spml4dm.git

の事前準備が済んでいるものとします（前回までと同じ手順）。

GitHub上の講義用ファイル（第3回分）が更新されたそうなので、以下を実行します。

cd spml4dm/
git fetch
git pull
cd 3/
ipython notebook

f:id:akiyoko:20150410013553p:plain

χ二乗の値

>>> from scipy.stats import chi2
>>> chi2.isf(0.05, 10)
18.307038053275143

akiyoko blog

akiyoko の IT技術系ブログです

「統計処理及び機械学習に基づくデータマイニング勉強会 #03」に参加してきました

タイトル

主催

会場

統計処理及び機械学習に基づくデータマイニング入門　第3回

【講義】

Bradley-Terryモデル

Bradley-Terryモデルとは？

多腕バンディット問題

参考

【ハンズオン】

タイトル

主催

会場

統計処理及び機械学習に基づくデータマイニング入門 第3回

【講義】

Bradley-Terryモデル

Bradley-Terryモデルとは？

多腕バンディット問題

参考

【ハンズオン】

統計処理及び機械学習に基づくデータマイニング入門　第3回