데이터 파이프라인 흐름

Notice

Recent Posts

Recent Comments

Tags more

Archives

관리 메뉴

eunzae's develog

Database/Data Engineering

eunzae 2021. 12. 3. 22:02

# 파이프라인: 한 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조

요구사항수집, 데이터선정 → 데이터 수집 → 데이터 전처리, 데이터 저장 → 데이터 분석, 시각화

# 데이터 파이프라인 아키텍처

데이터 생성(앱, 웹, 외부 서비스, IOT, 소셜 등)

↓

데이터 수집

- Amazon Kinesis Streams: 스트림(실시간)데이터 (큐를 꼭 넣어서 진행해야 한다)

- Amazon Kinesis Firehose: 실시간 데이터 완전관리형 서비스

- Amazon API Gate way: 앱이나 웹에서 발생한 이벤트를 AWS 서비스와 연결해주는 프록시서버*, 마이크로서비스**의 근간

* 프록시서버: 클라이언트와 서버 사이에서 데이터를 중계하는 역할을 하는 서버

** 마이크로서비스: 서비스 간 영향을 주지 않는 서비스(독립적)

- Lambda function: 이벤트드리븐*

* 이벤트드리븐: 이벤트에 반응하여 동작을 변경

등등등...

↓

데이터 전처리 및 저장(AWS Glue, Amazon S3, Amazon EMR 등)

- Amazon EMR: 가장 많이 사용, 온프레미스 방식보다 Hadoop 구성이 편리

↓

데이터 분석 및 시각화(분석 - Amazon Athena / 시각화 - Apache Zeppelin, Tableau, Periscope Data, Superset 등)

쏘카 데이터 그룹 - 데이터 엔지니어링 팀이 하는 일 (0)	2021.12.09
데이터 파이프라인을 위한 AWS 서비스 (1)	2021.12.08
Data Lambda Architecture (0)	2021.12.04
Data & AI Landscape (0)	2021.12.04
10 qualities of an exceptional enterprise DBA (0)	2021.12.03

'Database/Data Engineering' Related Articles