akiyoko blog

akiyoko の IT技術系ブログです

「【AWS 初心者向け Webinar】AWSでBig Data活用」に参加しました

12/10 のランチタイムに AWS Webinar があったので、聴講してみました。


aws.typepad.com


なぜ今 Big Data なのか?なぜ AWS なのか?について、Big Data on AWS の事例と関連サービスを紹介するということでした。



いつものように、気になったことをメモ。

  • Big Dataとは?
    • サンプリングせず(異常値も含めて)全データを扱う(定義)
    • 因果関係より相関関係
    • 個にフィードバック
    • 規模が大きいから Big Data ではない
  • ダベンポートによる分析の分類
  • なぜ Big Data?
    • 属人性を排除して組織をスケール
    • 新しい発見から、ビジネスチャンスを作る
  • なぜ AWS?
    • ちょっと試してみたい。数クリックで利用開始でき、初期コスト不要
    • スケール可能
  • 事例
    • データ収集と保存
      • S3, Amazon Kinesis Stream(大量でかつ連続したデータを信頼性格納し、低レイテンシーでデータ処理に伝送が可能), DynamoDB, RDS
      • Amazon Redshift(フルマネージドのデータウェアハウスサービス。インタフェースはSQL検索)
      • Amazon Kinesis Firehose(大量ストリームデータをS3とRedshiftへ)
      • Amazon Kinesis Analytics(ただしアナウンスのみ)
      • S3 + Lamdba + SQS + EC2 でログ分析をしていたものを、Kinesis でリプレースした事例も
    • イベント処理
      • AWS Lambda(イベントをトリガーに処理を実行)
      • Amazon Kinesis Streamで受け取ったデータをLambdaで処理させる
    • データ処理
      • Amazon Elastic MapReduce(EMR)
      • S3 と連携させれば便利。HDFS(Hadoop上のオブジェクトストレージ)からS3へ。S3をDBのレコード(永続的データストア)のように扱うことができる
      • EMRだと、使いたいときだけにクラスタを起動し、その他の時間はクラスタを落としておくことができる、などの利点が
    • 保存
  • アドバンスド
    • クエリに最適化するために、カラムナーフォーマット?に変換して保存している
    • スポットインスタンスでEMRクラスタを起動すると、通常価格の半額から90%引きのコストまで削減することも
    • Workflow tools from re:Invent 2015
      • Dataduct (AWS Data Pipeline)
        • Coursera が使っている
      • Luigi
  • SQL on Big Data
    • 簡単かつ高速に全件検索可能
    • Redshift or EMR に JDBC/ODBC で接続
      • Redshift は Compute Node にデータを一旦置いておく必要がある。その後、COPY/UNLOAD
      • JDBCは、Zeppelin などを使う
  • Spark streaming でリアルタイムログ収集
    • ZeppelinとかでSQLでクエリ検索できる