タイトル
統計処理及び機械学習に基づくデータマイニング勉強会 #01 - connpass (2015.2.26)
主催
梅染充男(@dr4caena)
会場
東京都渋谷区恵比寿南3-5-7 代官山DGビル9F
株式会社デジタルガレージセミナールーム
統計処理及び機械学習に基づくデータマイニング入門
発表者: ナビプラス株式会社 宮本隆志(@tmiya_)
きたー。 http://t.co/cGIdT9fJDf #study_np (@ Digital Garage (デジタル ガレージ)) https://t.co/5WOVzHvm0W pic.twitter.com/K4GYsUctnW
— Yuta Okamoto (@okapies) February 26, 2015
【講義】
http://nbviewer.ipython.org/github/takashi-miyamoto-naviplus/spml4dm/blob/master/1/study_np_01.pdf
- インフラとか実務的な話はしない。
- メインに Python を使う。Anaconda-2.1.0 で説明する。
- アルゴリズムの詳細については、「2014年 パターン認識と機械学習勉強会(全23回)」の資料 を参照
- 前半は統計処理とか機械学習の手法についての講義、後半は Pythonのハンズオン。
- データマイニング全般
- 「データマイニング手法」(Data Mining Techniques, 3rd edition の和訳版)
データマイニング手法―営業、マーケティング、CRMのための顧客分析
- 作者: マイケル・J.A.ベリー,ゴードン・S.リノフ,Michael J.A. Berry,Gordon S. Linoff,江原淳,上野勉,河野順一,佐藤栄作,朝稲努
- 出版社/メーカー: 海文堂出版
- 発売日: 2005/10
- メディア: 単行本
- 購入: 1人 クリック: 25回
- この商品を含むブログ (8件) を見る
- 購買心理を読み解く統計学(豊田秀樹)
- 世の中にどんな統計手法があるのか?が分かる入門書
購買心理を読み解く統計学―実例で見る心理・調査データ解析28
- 作者: 豊田秀樹
- 出版社/メーカー: 東京図書
- 発売日: 2006/06
- メディア: 単行本
- クリック: 3回
- この商品を含むブログ (7件) を見る
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (82件) を見る
- 機械学習
- 有名なビショップの本上下
- 作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
- 出版社/メーカー: 丸善出版
- 発売日: 2012/04/05
- メディア: 単行本(ソフトカバー)
- 購入: 6人 クリック: 33回
- この商品を含むブログ (16件) を見る
-
- データマイニングの基礎
- 作者: 元田浩,山口高平,津本周作,沼尾正行
- 出版社/メーカー: オーム社
- 発売日: 2006/12
- メディア: 単行本
- 購入: 2人 クリック: 46回
- この商品を含むブログ (16件) を見る
- 作者: Raul Garreta,Guillermo Moncecchi
- 出版社/メーカー: Packt Publishing
- 発売日: 2013/11/25
- メディア: ペーパーバック
- この商品を含むブログを見る
- データマイニングのステップ
- データの準備(データの取得、前処理、集計)
- モデルの適用
- モデルの評価・検証
- 各局面での視覚化
- 代表的なモデル
- 回帰分析
- クラスタリング
- アソシエーション分析
- 検証
- オッカムの剃刀
- 交差検証(cross validation)、ホールドアウト検証
- 線形回帰モデル
- 最小二乗法
- 理論を学ぶのは、ライブラリを使って一発でうまくいかなかった場合にどこが悪いのかを考えられる
- 正則化最小二乗法
- パラメータwに対するペナルティとして働き、モデルの複雑さを減らす
- Lassoで上手くいかない場合は、ElasticNetというライブラリを使うといいかも
- 情報量基準
- なぜ Python?
【ハンズオン】
Anaconda インストール(Mac環境)
ちなみに現在の環境は、
を参考に、Anaconda を事前にインストールしておきます。
「Mac OS X — 64-Bit Python 2.7 Graphical Installer」をクリック。
ダウンロードできたら、「Anaconda-2.1.0-MacOSX-x86_64.pkg」をダブルクリックします。
IPython Notebookを使う
まずは、
を参考に、Mac で IPython Notebook を使えるようにしておきました。
sudo pip install -U ipython sudo pip install pyzmq tornado jinja2
ハンズオンの Notebook を起動する
cd ~/temp/ git clone https://github.com/takashi-miyamoto-naviplus/spml4dm.git cd spml4dm/
ipython notebook
すると、8888番ポートで Notebook が起動し、Safari が開きます。
上から順番にセルにカーソルを合わせて、
「Run Cell」をクリックしていけば、どんどん実行されていきます。
これは楽チン。
Pythonスクリプトは実行できないのですが、ブラウザで
http://nbviewer.ipython.org/github/takashi-miyamoto-naviplus/spml4dm/blob/master/1/aic.ipynb
にアクセスすると、ハンズオンのドキュメントを見ることはできるようです。
でも、boston のハンズオンを実行しようとすると、、
%matplotlib inline import numpy as np import matplotlib.pyplot as plt import pandas as pd from sklearn import datasets --------------------------------------------------------------------------- ImportError Traceback (most recent call last) <ipython-input-1-bf40fb4ac6f0> in <module>() 2 import numpy as np 3 import matplotlib.pyplot as plt ----> 4 import pandas as pd 5 from sklearn import datasets ImportError: No module named pandas
というエラーが。
Anaconda インストールしたのに、おかしいなぁ。。
ちょっと調べてみよう。