데이터 웨어하우스를 중심으로 하는 데이터 파이프 라인
- ETL
E는 데이터 추출
T는 데이터 변형
L은 데이터 적재
- 원시 데이터
데이터 수집할 때의 데이터 그자체입니다.
로우(raw) 데이터라고도 합니다.
- 데이터 웨어하우스
원시 데이터를 가공한 후 장기 보존의 목적으로 적재되는 데이터베이스입니다.
- 데이터 마트
데이터 웨어하우스에서 사용하려는 목적에 맞게 필요한 데이터를 뽑아 분석하기 위한 테이블입니다.
- BI 도구
데이터를 시각화하기 위한 도구입니다.
데이터 레이크를 중심으로 하는 데이터 파이프 라인
- 데이터 레이크
원시 데이터 그대로 보존한 데이터베이스입니다.
데이터 웨어하우스와 차이는 원시 데이터를 가공하여 보존하느냐 그대로 보존하느냐의 차이입니다.
빅데이터를 위한 데이터 파이프 라인
- 스트리밍형 데이터 수집
실시간으로 데이터를 수집하는 방식입니다.
- 벌크형 데이터
이미 어딘가에 존재하는 데이터를 정기적으로 수집하는 방식입니다.
- 스트림 처리
실시간으로 데이터를 처리하는 방법입니다.
- 분산 스토리지
여러 컴퓨터와 디스크로부터 구성된 스토리지 시스템을 말합니다.
- 분산 데이터 처리
말 그대로 분산 스토리지에 있는 데이터를 처리합니다.
- 워크플로 관리
전체 데이터 파이프라인의 동작을 관리하기 위한 기술입니다.
매일 정해진 시간에 배치 처리를 설계한대로 실행하고, 오류가 발생하면 관리자에게 알리는 목적으로 사용됩니다.
'to become 데이터 엔지니어 > 간단한 정리' 카테고리의 다른 글
빅데이터 파이프라인 (0) | 2023.01.09 |
---|---|
빅데이터의 축적 (0) | 2023.01.06 |
빅데이터의 분산 처리 (0) | 2023.01.05 |
빅데이터 탐색 (0) | 2022.12.29 |
스몰 데이터 분석 (0) | 2022.12.29 |