統計解析系の勉強会でした。
「エクセルで出来るデータマイニング・データ分析入門勉強会」(2013.3.5)
会場は前にも行ったことのあるセルリアンタワーでした。
主催の「GMOアプリやろうぜ!」さんのおまけセッションもありましたよ。
エクセルで始めるデータ分析・データマイニング入門
米谷 学氏
Slide: http://www.slideshare.net/hanakk36/ss-17103478
Download: http://www.datamining.jp/download/20130305/
- 統計解析は「仮説を立てて検証すること」、データマイニングは「仮説・知見を見つけること」
- データマイニングにはきまりがなく、試行錯誤するしかない。いわば力作業
- 力作業が楽になるようなデータの持ち方を工夫することは非常に重要
- 統計用語(検定、有意差、母集団と標本(サンプル)、推定)
- サンプルサイズが大きくなればなるほど少ない差でも有意差があると判定されがち(明らかな差が出ているように思えてしまう)
- つまり、分析対象のデータ数が多い場合は、「検定(標本から推定した値の妥当性を検証すること)」は馴染まない
- Excel2007から、1万列×100万行書けるようになった
- 過去のデータから分析・予測するメリット
- 成功・失敗の原因の検証
- 意思決定までの過程の資格化、など
- 過去のデータから分析・予測するデメリット
- 過去の規則性・周期性から外れると、予測精度が低下する可能性あり
- 相関関係は探れても、因果関係を出すのが困難な(混同してしまう)場合も
- 散布図(関連がありそうな二つの項目についてブロット)
- 例えば、日々の最高気温とソフトクリームの売上高、など
- 散布図で読み取れる傾向を「相関」と呼ぶ
- しかしながら、本当に因果関係があるかどうかは分からない(別問題)
- 直線予測の外挿
- 「傾向がそのまま続く」という前提で直線を伸ばして予測する。Excelではデータをそのまま伸ばせばよい
- Excelだと「近似直線の追加」?という機能もある
- ただし、(移動平均の場合も)季節性等を考慮して「区切り」を考えよ!
- つまり、直線を伸ばすときは「前提」に注意
- 予測の考え方のポイント
- 予測が当たらない → 分析項目が足りない?
- だんだん予測が外れてきた → 予測モデルはずっと使えるわけではない
- 当たり前の結果しか得られない → 高度な手法を使っても新発見が得られるわけではない
- クロス集計にはExcelでは「ピボットテーブル」を使う
- データクレンジング
- データの重複の解消、表記の揺れ、「有り」「有」「アリ」の違い、スペースの混入
- 郵便番号の更新
- 「外れ値」の取り扱い
- 欠損値
- よくある間違い。「平均の平均」(加重平均)はしない
- 伸び率や成長率など、年ごとの平均を出すときは「幾何平均」を使う
- 多変量を扱ったグラフを見せるときは、(カッコいいから言って立体的なグラフにせず)色を変えて横に並べたほうがよい
- 単純集計と多変量解析
- 複数項目が互いに影響している場合は、いっぺんに解析するしかない(単純集計では限界がある)
- 複数のデータ項目(変数)で関係を分析
- 回帰分析(多変量解析の一種)を使ったりする
- Excelではデータ解析ツール「回帰分析」が使える
- 相関係数(-1~1の値をとる)は、変数間の直線的な関係を数値で表したもの
- 最適化問題
- 例えば、プロジェクトにおいて誰がどの工程を担当すれば一番効率的か?など
- ソフトに任しちゃった方がよい。Excelだと「ソルバー機能」で分析可能
- ゴールシーク(目的を達成するために逆算すること)
- ABC分析は、ピボットテーブル機能で集計
- RFM分析への応用もできる