eunzae's develog

데이터 파이프라인 흐름 본문

Database/Data Engineering

데이터 파이프라인 흐름

eunzae 2021. 12. 3. 22:02

# 파이프라인: 한 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조

 

요구사항수집, 데이터선정 → 데이터 수집 → 데이터 전처리, 데이터 저장 → 데이터 분석, 시각화

 

 

# 데이터 파이프라인 아키텍처

 

데이터 생성(앱, 웹, 외부 서비스, IOT, 소셜 등)

       ↓

데이터 수집

  - Amazon Kinesis Streams: 스트림(실시간)데이터 (큐를 꼭 넣어서 진행해야 한다)

  - Amazon Kinesis Firehose: 실시간 데이터 완전관리형 서비스

  - Amazon API Gate way: 앱이나 웹에서 발생한 이벤트를 AWS 서비스와 연결해주는 프록시서버*, 마이크로서비스**의 근간

    * 프록시서버: 클라이언트와 서버 사이에서 데이터를 중계하는 역할을 하는 서버

    ** 마이크로서비스: 서비스 간 영향을 주지 않는 서비스(독립적)

  - Lambda function: 이벤트드리븐*

    * 이벤트드리븐: 이벤트에 반응하여 동작을 변경

     등등등...

       ↓

데이터 전처리 및 저장(AWS Glue, Amazon S3, Amazon EMR 등)

  - Amazon EMR: 가장 많이 사용, 온프레미스 방식보다 Hadoop 구성이 편리

       ↓

데이터 분석 및 시각화(분석 - Amazon Athena / 시각화 - Apache Zeppelin, Tableau, Periscope Data, Superset 등)