akiyoko blog

akiyoko の IT技術系ブログです

統計解析

matplotlib のグラフに日本語を表示する方法(文字化け対応)

今回の内容は、Jupyter Notebook 上で matplotlib を利用したグラフを描画する際に日本語のラベル名が文字化けしてしまう事象への解消方法です。 ローカルの実行環境は以下の通り。 MacOS Sierra 10.12.3 Python 2.7.12 (Anaconda 4.2.0) Jupyter Notebook…

ゼロからはじめる Amazon QuickSight(AWS でお手軽データ分析 その3/3)

前々回の記事 および 前回の記事 で、Scrapy で Webスクレイピングしたデータを CSVファイルとして S3 に格納し、Amazon Athena のテーブルを作成して CSV のデータを流し込むところまでを実施しました。今回は、作成した Amazon Athena のテーブルをデータ…

ゼロからはじめる Amazon Athena(AWS でお手軽データ分析 その2/3)

前回の記事 で、Scrapy で Webスクレイピングしたデータを CSV形式で S3 に格納しました。今回は、S3 に格納した CSVファイルに対して、Amazon Athena を使ってデータ分析用のテーブルに取り込みたいと思います。 <過去記事> akiyoko.hatenablog.jp Amazon…

ゼロからはじめる Scrapy(AWS でお手軽データ分析 その1/3)

Python で Web クローリング・スクレイピングするためのツールといえば、 今や Scrapy が真っ先に候補に上がりますよね。 Pythonでクローリング・スクレイピングに使えるライブラリいろいろ - orangain flavor 「Pythonクローリング&スクレイピング」という…

今年の流行語大賞は「JPAP」(Jupyter / Python / Anaconda / Pyenv)〜 ゼロからはじめる Jupyter Notebook 〜

この投稿は 「jupyter notebook Advent Calendar 2016 - Qiita」 の 6日目の記事です。 今年の流行語大賞が 「JPAP(Jupyter / Python / Anaconda / Pyenv) に決まりましたね! あれ? 違うの!? といった冗談はさておき、ちょっとした統計解析をしようと…

「D3.jsで学ぶデータビジュアライゼーション」に参加してきました

タイトル D3.jsで学ぶデータビジュアライゼーション - connpass (2016.11.14) data-visualization-japan.connpass.com 主催 Data Visualization Japan 会場 Twitter Japan 東京都中央区京橋3−1−1 東京スクエアガーデン19階 (参考)Twitter Japan に行って…

NumPy, SciPy を利用するために Python 2系の Anaconda を、pyenv を使ってインストールする

はじめに Anaconda (アナコンダ) とは Anaconda は、Continuum Analytics 社によって提供されている、Python 本体に加え、科学技術、数学、エンジニアリング、データ分析など、よく利用される Python パッケージ(2016 年 2 月時点で 400 以上)を一括でイン…

「ヤバい統計学」と「ナンバーセンス」(カイザー・ファング著)を読んだ

カイザー・ファング著の統計学関連の本二冊「ヤバい統計学」と「ナンバーセンス」を読み終わりました。ヤバい統計学posted with ヨメレバカイザー・ファング,Kaiser Fung CCCメディアハウス 2011-02-19 AmazonKindle楽天ブックス 先に「ナンバーセンス」の方…

「不透明な時代を見抜く「統計思考力」」を読んだ

初学者向けの統計学関連本。不透明な時代を見抜く「統計思考力」作者: 神永正博出版社/メーカー: ディスカヴァー・トゥエンティワン発売日: 2009/04/15メディア: 単行本(ソフトカバー)購入: 18人 クリック: 294回この商品を含むブログ (117件) を見る 「架…

「統計処理及び機械学習に基づくデータマイニング勉強会 #03」に参加してきました

タイトル 統計処理及び機械学習に基づくデータマイニング勉強会 #03 (2015/04/09 19:00〜)統計処理及び機械学習に基づくデータマイニング勉強会 #03 - connpass (2015.4.9) 主催 梅染充男(@dr4caena) 会場 東京都渋谷区恵比寿南3-5-7 代官山DGビル9F 株…

「統計処理及び機械学習に基づくデータマイニング勉強会 #02」に参加してきました

タイトル 統計処理及び機械学習に基づくデータマイニング勉強会 #02 (2015/03/12 19:00〜)統計処理及び機械学習に基づくデータマイニング勉強会 #02 - connpass (2015.3.12) 主催 梅染充男(@dr4caena) 会場 東京都渋谷区恵比寿南3-5-7 代官山DGビル9F 株…

「統計処理及び機械学習に基づくデータマイニング勉強会 #01」に参加してきました

タイトル 統計処理及び機械学習に基づくデータマイニング勉強会 #01 (2015/02/26 19:00〜) 統計処理及び機械学習に基づくデータマイニング勉強会 #01 - connpass (2015.2.26) 主催 梅染充男(@dr4caena) 会場 東京都渋谷区恵比寿南3-5-7 代官山DGビル9F …

日本統計学会認定「統計検定2級」に合格しました

先月11月30日に、統計検定2級を受検してきました。http://www.toukei-kentei.jp/about/grade2.htmlそして先日、Web合格発表がアップされ、自身の合格を確認したので、これまでの経緯を書いてみたいと思います。自己採点で正答率74%だったので、まあ大丈夫だ…

gacco 「統計学Ⅰ:データ分析の基礎」のまとめ

11月から12月にかけて受講していた、無料オンライン講座 gacco の「ga014: 統計学Ⅰ:データ分析の基礎」の個人的なまとめです。 統計学Ⅰ:データ分析の基礎 なお、12月20日の東京会場での反転授業も受講してきました。 こちらは有料(9,000円)でした。統計…

「12月は何かと物入り」は正しい? ~ 家計調査の政府統計データから 12月に消費される傾向の強い品目を調べてみた ~

前回、政府統計ポータル(e-Stat) の家計調査の政府統計データから、 テレビゲーム機 ゲームソフト等 他のがん具 の 12月の購入金額がほかの月(1~11月)に対して有意差があるかどうかを検証することによって、全国のサンタさんの出費動向を考察してみまし…

政府統計ポータル(e-Stat)と R でサンタさんの12月の出費動向を調べてみた

この投稿は 「R Advent Calendar 2014 - Qiita」 の 25日目の記事です。 Me y Christmas!!ということで今日は、クリスマスですね。 昨晩は、全国のサンタさんが大活躍したのではないでしょうか。 そこで今回は、全国のサンタさんの12月の出費動向を調べてみ…

Windows で R(統計解析ツール)を使う

gacco で 11月12日からスタートする「統計学Ⅰ:データ分析の基礎」で、統計解析ツール「R」を使用するようなので、事前に勉強しておこうと思います。 環境は、Windows 7 です。 R とは 統計解析に特化したプログラミング言語であり、その実行環境を指す場合…

「完全独習 統計学入門」を読んだ

結論として、この本は、本格的に統計学を勉強する前に最初に読む本として最適なのではないかと思いました。 完全独習 統計学入門作者: 小島寛之出版社/メーカー: ダイヤモンド社発売日: 2006/09/29メディア: 単行本(ソフトカバー)購入: 215人 クリック: 3,…

「世界一やさしくわかる医療統計」を読んだ

会社の人から勧められた本。 保健医療を題材にした統計学の本ですが、保健医療に詳しくなくても全然大丈夫でした。 第5章あたりから若干難解でしたが、これ一冊で統計学的手法がほぼ網羅できるという内容になってます。 世界一やさしくわかる医療統計作者: …

Pythonで棒グラフ

今回は、NumPy と matplotlibライブラリで棒グラフを描いてみます。シチュエーションとしては、あるテストの国ごとの平均点を棒グラフにしてみたいと思います。で、Excel上に、スコアのデータと国籍のデータが下方向に並んでいるとします。 USA 42 Denmark 4…

Pythonで円グラフ

今回は、matplotlibライブラリを使って、円グラフを描きたいと思います。例として、参加者の国籍ごとの人数を表示する、という用途で使う前提で考えます。 Excelのあるセル(D10)から下方向に、参加者の国籍データが並んでいるものとします。 USA Denmark J…

Pythonで単回帰直線

今回は「Pythonで散布図」の続きで、散布図に使った二系統のデータから、最小二乗法で求めた単回帰直線を描いてみたいと思います。単回帰直線を求めるためのライブラリ SciPy は、前回の「Mac に SciPy をインストール」をみてインストールしてください。 単…

Mac に SciPy をインストール

Pythonで統計解析シリーズの続きです。単回帰分析などの統計解析をするときは、SciPy を使うのが簡単です。しかし、いざ Mac に SciPy をインストールしようとしたら、なかなかうまく行かず。。 同じ悩みを抱えている人も多かったのですが、これぞ!という正…

「仕事に役立つ統計学の教え」を読んだ

統計学じゃなくて「営業」の本でした。 統計解析のイロハを勉強したい人向けの本ではなかったです。 仕事に役立つ統計学の教え作者: 斎藤広達出版社/メーカー: 日経BP社発売日: 2013/04/04メディア: 単行本(ソフトカバー)この商品を含むブログを見る

Pythonで散布図

今回は、Pythonで散布図を描こうと思います。 内容的には「Pythonでヒストグラム」の続編のような形になっていますのでご注意を。 相関係数を求める シチュエーションとしては、ExcelのセルF10から下にデータ(テストの点数)がずらっと並んでいて、それと対…

「「それ、根拠あるの?」と言わせない データ・統計分析ができる本」を読んだ

本屋に平積みしてあったので、気になって読んだ統計解析の本。 全体的に統計解析の初学者にも分かりやすいような内容になっていて、統計解析の仕事をする新入社員が読むのにちょうどよさそうだと感じました。 「それ、根拠あるの?」と言わせない データ・統…

Pythonでヒストグラム

前回「PythonでExcel操作」の続きで、今回は、Excelから取得したデータを使ってPythonでヒストグラムを描こうと思います。 matplotlib のインストール グラフ描画のライブラリには、「matplotlib」を使います。 $ sudo easy_install matplotlib matplotlib 1…

「エクセルで出来るデータマイニング・データ分析入門勉強会」に参加してきました

統計解析系の勉強会でした。「エクセルで出来るデータマイニング・データ分析入門勉強会」(2013.3.5) 会場は前にも行ったことのあるセルリアンタワーでした。 主催の「GMOアプリやろうぜ!」さんのおまけセッションもありましたよ。 エクセルで始めるデー…

「マネーボール」を読んだ

何年ぶりか覚えてないくらい久しぶりに小説を読みました。 きっかけは、「《Gunosy》開発チームが厳選、WEB業界人が読むべき“統計学”の必読書ベスト5」を見て、上から読んでいこうかと。 マネー・ボール 奇跡のチームをつくった男作者: マイケル・ルイス,中…

「【 ヒカ☆ラボ 】 広告収入で稼ぐ!!!アプリマネタイズ術を公開!-アプリの広告収入で実績のある2社がノウハウを伝授-」に参加してきました

三週続けてのマーケティング系勉強会シリーズ、その第三弾です。「【 ヒカ☆ラボ 】 広告収入で稼ぐ!!!アプリマネタイズ術を公開!-アプリの広告収入で実績のある2社がノウハウを伝授-」(2013.2.5) 会場は、渋谷ヒカリエ 17F のレバレジーズ本社。 も…