12/10 のランチタイムに AWS Webinar があったので、聴講してみました。
なぜ今 Big Data なのか?なぜ AWS なのか?について、Big Data on AWS の事例と関連サービスを紹介するということでした。
いつものように、気になったことをメモ。
- Big Dataとは?
- サンプリングせず(異常値も含めて)全データを扱う(定義)
- 因果関係より相関関係
- 個にフィードバック
- 規模が大きいから Big Data ではない
- ダベンポートによる分析の分類
- なぜ Big Data?
- 属人性を排除して組織をスケール
- 新しい発見から、ビジネスチャンスを作る
- なぜ AWS?
- ちょっと試してみたい。数クリックで利用開始でき、初期コスト不要
- スケール可能
- 事例
- データ収集と保存
- S3, Amazon Kinesis Stream(大量でかつ連続したデータを信頼性格納し、低レイテンシーでデータ処理に伝送が可能), DynamoDB, RDS
- Amazon Redshift(フルマネージドのデータウェアハウスサービス。インタフェースはSQL検索)
- Amazon Kinesis Firehose(大量ストリームデータをS3とRedshiftへ)
- Amazon Kinesis Analytics(ただしアナウンスのみ)
- S3 + Lamdba + SQS + EC2 でログ分析をしていたものを、Kinesis でリプレースした事例も
- イベント処理
- AWS Lambda(イベントをトリガーに処理を実行)
- Amazon Kinesis Streamで受け取ったデータをLambdaで処理させる
- データ処理
- Amazon Elastic MapReduce(EMR)
- S3 と連携させれば便利。HDFS(Hadoop上のオブジェクトストレージ)からS3へ。S3をDBのレコード(永続的データストア)のように扱うことができる
- EMRだと、使いたいときだけにクラスタを起動し、その他の時間はクラスタを落としておくことができる、などの利点が
- 保存
- データ収集と保存
- アドバンスド
- クエリに最適化するために、カラムナーフォーマット?に変換して保存している
- スポットインスタンスでEMRクラスタを起動すると、通常価格の半額から90%引きのコストまで削減することも
- Workflow tools from re:Invent 2015
- Dataduct (AWS Data Pipeline)
- Coursera が使っている
- Luigi
- Dataduct (AWS Data Pipeline)
- SQL on Big Data
- 簡単かつ高速に全件検索可能
- Redshift or EMR に JDBC/ODBC で接続
- Redshift は Compute Node にデータを一旦置いておく必要がある。その後、COPY/UNLOAD
- JDBCは、Zeppelin などを使う
- Spark streaming でリアルタイムログ収集
- ZeppelinとかでSQLでクエリ検索できる