「【AWS 初心者向け Webinar】AWSでBig Data活用」に参加しました

12/10 のランチタイムに AWS Webinar があったので、聴講してみました。

aws.typepad.com

なぜ今 Big Data なのか？なぜ AWS なのか？について、Big Data on AWS の事例と関連サービスを紹介するということでした。

AWS初心者向けWebinar AWSでBig Data活用 from Amazon Web Services Japan

いつものように、気になったことをメモ。

Big Dataとは？
- サンプリングせず（異常値も含めて）全データを扱う（定義）
- 因果関係より相関関係
- 個にフィードバック
- 規模が大きいから Big Data ではない
ダベンポートによる分析の分類
なぜ Big Data？
- 属人性を排除して組織をスケール
- 新しい発見から、ビジネスチャンスを作る
なぜ AWS？
- ちょっと試してみたい。数クリックで利用開始でき、初期コスト不要
- スケール可能
事例
- データ収集と保存
  - S3, Amazon Kinesis Stream（大量でかつ連続したデータを信頼性格納し、低レイテンシーでデータ処理に伝送が可能）, DynamoDB, RDS
  - Amazon Redshift（フルマネージドのデータウェアハウスサービス。インタフェースはSQL検索）
  - Amazon Kinesis Firehose（大量ストリームデータをS3とRedshiftへ）
  - Amazon Kinesis Analytics（ただしアナウンスのみ）
  - S3 + Lamdba + SQS + EC2 でログ分析をしていたものを、Kinesis でリプレースした事例も
- イベント処理
  - AWS Lambda（イベントをトリガーに処理を実行）
  - Amazon Kinesis Streamで受け取ったデータをLambdaで処理させる
- データ処理
  - Amazon Elastic MapReduce（EMR）
  - S3 と連携させれば便利。HDFS（Hadoop上のオブジェクトストレージ）からS3へ。S3をDBのレコード（永続的データストア）のように扱うことができる
  - EMRだと、使いたいときだけにクラスタを起動し、その他の時間はクラスタを落としておくことができる、などの利点が
- 保存
アドバンスド
- クエリに最適化するために、カラムナーフォーマット？に変換して保存している
- スポットインスタンスでEMRクラスタを起動すると、通常価格の半額から90％引きのコストまで削減することも
- Workflow tools from re:Invent 2015
  - Dataduct (AWS Data Pipeline)
    - Coursera が使っている
  - Luigi
SQL on Big Data
- 簡単かつ高速に全件検索可能
- Redshift or EMR に JDBC/ODBC で接続
  - Redshift は Compute Node にデータを一旦置いておく必要がある。その後、COPY/UNLOAD
  - JDBCは、Zeppelin などを使う
Spark streaming でリアルタイムログ収集
- ZeppelinとかでSQLでクエリ検索できる

akiyoko blog

akiyoko の IT技術系ブログです

「【AWS 初心者向け Webinar】AWSでBig Data活用」に参加しました