eunzae's develog

Data Lambda Architecture 본문

Database/Data Engineering

Data Lambda Architecture

eunzae 2021. 12. 4. 19:20

 

Raw Data store(IoT rule, App, Echo, SNS 등 ↔ Internet)

  - Amazon API Gateway, Amazon Kinesis Streams, Amazon Kinesis Firehose, Amazon Pinpoint* 등

    * Amazon Pinpoint: CRM 서비스

    ↓

Batch-Processing Engine(ETL 작업)
  - Amazon Spark(AWS EMR이라는 Echo 서비스에 올라가있음, EMR을 통해 Spark 배포)

  - AWS DMS(이기종 데이터 transformation 하는데 활용/Spark 대신 DMS를 통해 가져오면 서비스에 부하가 적음) 등

Real-Time Processing Engine

  - Spark Streaming(장: EMR 안에 있음/단: 항상 켜놔야 함), Amazon Kinesis Analytics 등

    ↓

Serving Data Store(DW, DM)  (←Amazon SageMaker→ Analytical Sandboxes(DataDiscovery, Predictive Modeling))

  - Amazon ES(Elasticsearch): 데이터량이 지속적으로 많아질 경우 부적합

  - Amazon DynamoDB

  - Amazon RDS

  - Amazon Redshift

  - Presto

    ↓

Visualization

 

---- Data Cataloging(AWS GLUE): 메타데이터 관리----

---- Data security and Governance ----