読者です 読者をやめる 読者になる 読者になる

akiyoko blog

akiyoko の IT技術系ブログです

「統計処理及び機械学習に基づくデータマイニング勉強会 #01」に参加してきました

タイトル


統計処理及び機械学習に基づくデータマイニング勉強会 #01 - connpass (2015.2.26)


主催

梅染充男(@dr4caena


会場

東京都渋谷区恵比寿南3-5-7 代官山DGビル9F
株式会社デジタルガレージセミナールーム


Twitter





 

統計処理及び機械学習に基づくデータマイニング入門

発表者: ナビプラス株式会社 宮本隆志(@tmiya_



【講義】

http://nbviewer.ipython.org/github/takashi-miyamoto-naviplus/spml4dm/blob/master/1/study_np_01.pdf


データマイニング手法―営業、マーケティング、CRMのための顧客分析

データマイニング手法―営業、マーケティング、CRMのための顧客分析

  • 購買心理を読み解く統計学(豊田秀樹)
    • 世の中にどんな統計手法があるのか?が分かる入門書

購買心理を読み解く統計学―実例で見る心理・調査データ解析28

購買心理を読み解く統計学―実例で見る心理・調査データ解析28

統計学入門 (基礎統計学)

統計学入門 (基礎統計学)

パターン認識と機械学習 上

パターン認識と機械学習 上

データマイニングの基礎 (IT Text)

データマイニングの基礎 (IT Text)

  • データマイニングのステップ
    • データの準備(データの取得、前処理、集計)
    • モデルの適用
    • モデルの評価・検証
    • 各局面での視覚化
  • 代表的なモデル
  • 検証
  • 線形回帰モデル
    • 最小二乗法
  • 理論を学ぶのは、ライブラリを使って一発でうまくいかなかった場合にどこが悪いのかを考えられる
  • 正則化最小二乗法
    • パラメータwに対するペナルティとして働き、モデルの複雑さを減らす
    • Lassoで上手くいかない場合は、ElasticNetというライブラリを使うといいかも
  • 情報量基準
    • 「モデルの複雑さ」と「データの適合度」のバランスを取ることが必要
    • AIC赤池情報量基準), BICベイズ情報量基準)
  • なぜ Python
    • GUIベースだと文章で説明しづらい
    • IPythonのノートブック形式で公開
    • 数値計算に便利なライブラリ一式が揃った Anacondaを使う
    • 使用するライブラリ
      • matplotlib
      • numpy
      • scipy
      • pandas
      • scikit-learn・・・機械学習用ライブラリ
      • statsmodels・・・統計処理ライブラリ



 

【ハンズオン】

Anaconda インストール(Mac環境)

ちなみに現在の環境は、



を参考に、Anaconda を事前にインストールしておきます。

http://continuum.io/downloads
f:id:akiyoko:20150228161131p:plain

Mac OS X — 64-Bit Python 2.7 Graphical Installer」をクリック。


ダウンロードできたら、「Anaconda-2.1.0-MacOSX-x86_64.pkg」をダブルクリックします。

f:id:akiyoko:20150228161142p:plain
f:id:akiyoko:20150228161246p:plain



IPython Notebookを使う


まずは、

を参考に、Mac で IPython Notebook を使えるようにしておきました。

sudo pip install -U ipython
sudo pip install pyzmq tornado jinja2
ハンズオンの Notebook を起動する
cd ~/temp/
git clone https://github.com/takashi-miyamoto-naviplus/spml4dm.git
cd spml4dm/
ipython notebook

すると、8888番ポートで Notebook が起動し、Safari が開きます。


f:id:akiyoko:20150228161341p:plain

f:id:akiyoko:20150228161350p:plain



上から順番にセルにカーソルを合わせて、
「Run Cell」をクリックしていけば、どんどん実行されていきます。

これは楽チン。

f:id:akiyoko:20150228161417p:plain


Pythonスクリプトは実行できないのですが、ブラウザで
http://nbviewer.ipython.org/github/takashi-miyamoto-naviplus/spml4dm/blob/master/1/aic.ipynb
にアクセスすると、ハンズオンのドキュメントを見ることはできるようです。





でも、boston のハンズオンを実行しようとすると、、

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import datasets
---------------------------------------------------------------------------
ImportError                               Traceback (most recent call last)
<ipython-input-1-bf40fb4ac6f0> in <module>()
      2 import numpy as np
      3 import matplotlib.pyplot as plt
----> 4 import pandas as pd
      5 from sklearn import datasets

ImportError: No module named pandas

というエラーが。


Anaconda インストールしたのに、おかしいなぁ。。
ちょっと調べてみよう。



(2015/3/11追記)

を参考に、

rm -rf ~/anaconda

でアンインストール(削除)してから、再度インストーラで入れなおすと、エラーは出なくなりました。

何だったんだろう。。