eunzae's develog
데이터 파이프라인 흐름 본문
# 파이프라인: 한 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조
요구사항수집, 데이터선정 → 데이터 수집 → 데이터 전처리, 데이터 저장 → 데이터 분석, 시각화
# 데이터 파이프라인 아키텍처
데이터 생성(앱, 웹, 외부 서비스, IOT, 소셜 등)
↓
데이터 수집
- Amazon Kinesis Streams: 스트림(실시간)데이터 (큐를 꼭 넣어서 진행해야 한다)
- Amazon Kinesis Firehose: 실시간 데이터 완전관리형 서비스
- Amazon API Gate way: 앱이나 웹에서 발생한 이벤트를 AWS 서비스와 연결해주는 프록시서버*, 마이크로서비스**의 근간
* 프록시서버: 클라이언트와 서버 사이에서 데이터를 중계하는 역할을 하는 서버
** 마이크로서비스: 서비스 간 영향을 주지 않는 서비스(독립적)
- Lambda function: 이벤트드리븐*
* 이벤트드리븐: 이벤트에 반응하여 동작을 변경
등등등...
↓
데이터 전처리 및 저장(AWS Glue, Amazon S3, Amazon EMR 등)
- Amazon EMR: 가장 많이 사용, 온프레미스 방식보다 Hadoop 구성이 편리
↓
데이터 분석 및 시각화(분석 - Amazon Athena / 시각화 - Apache Zeppelin, Tableau, Periscope Data, Superset 등)
'Database > Data Engineering' 카테고리의 다른 글
쏘카 데이터 그룹 - 데이터 엔지니어링 팀이 하는 일 (0) | 2021.12.09 |
---|---|
데이터 파이프라인을 위한 AWS 서비스 (1) | 2021.12.08 |
Data Lambda Architecture (0) | 2021.12.04 |
Data & AI Landscape (0) | 2021.12.04 |
10 qualities of an exceptional enterprise DBA (0) | 2021.12.03 |