데이터 웨어하우스를 중심으로 하는 데이터 파이프 라인

- ETL

    E는 데이터 추출

    T는 데이터 변형

    L은 데이터 적재

 

- 원시 데이터

    데이터 수집할 때의 데이터 그자체입니다.

    로우(raw) 데이터라고도 합니다.

 

- 데이터 웨어하우스

    원시 데이터를 가공한 후 장기 보존의 목적으로 적재되는 데이터베이스입니다.

 

- 데이터 마트

    데이터 웨어하우스에서 사용하려는 목적에 맞게 필요한 데이터를 뽑아 분석하기 위한 테이블입니다.

 

- BI 도구

    데이터를 시각화하기 위한 도구입니다.

 

데이터 레이크를 중심으로 하는 데이터 파이프 라인

- 데이터 레이크

    원시 데이터 그대로 보존한 데이터베이스입니다.

    데이터 웨어하우스와 차이는 원시 데이터를 가공하여 보존하느냐 그대로 보존하느냐의 차이입니다.

 

빅데이터를 위한 데이터 파이프 라인

- 스트리밍형 데이터 수집

    실시간으로 데이터를 수집하는 방식입니다.

 

- 벌크형 데이터

    이미 어딘가에 존재하는 데이터를 정기적으로 수집하는 방식입니다.

 

- 스트림 처리

    실시간으로 데이터를 처리하는 방법입니다.

 

- 분산 스토리지

    여러 컴퓨터와 디스크로부터 구성된 스토리지 시스템을 말합니다.

 

- 분산 데이터 처리

    말 그대로 분산 스토리지에 있는 데이터를 처리합니다.

 

- 워크플로 관리

    전체 데이터 파이프라인의 동작을 관리하기 위한 기술입니다.

    매일 정해진 시간에 배치 처리를 설계한대로 실행하고, 오류가 발생하면 관리자에게 알리는 목적으로 사용됩니다.

'to become 데이터 엔지니어 > 간단한 정리' 카테고리의 다른 글

빅데이터 파이프라인  (0) 2023.01.09
빅데이터의 축적  (0) 2023.01.06
빅데이터의 분산 처리  (0) 2023.01.05
빅데이터 탐색  (0) 2022.12.29
스몰 데이터 분석  (0) 2022.12.29

+ Recent posts