우리는 데이터가 홍수처럼 쏟아져 나오는 데이터 시대에 살아가고 있습니다.
예를 들면, 평소 시청하는 넷플릭스나 유튜브 콘텐츠, 요일별로 즐겨보는 웹툰, 구글 검색, 흥미로운 광고 클릭 등 컴퓨터 또는 스마트폰으로 하는 대부분의 일이 온라인 데이터로 쌓이고 있습니다.
오늘날 기업들은 이렇게 발생한 데이터를 활용하여 데이터 분석, 머신러닝, 딥러닝 등 데이터를 통한 가치창출을 하기 위해서 노력하고 있습니다.
데이터 직군
데이터 직군은 크게 3가지로 나눌 수 있습니다.
1. 데이터 분석가(DA)
데이터를 분석 & 정리하여, 비즈니스적인 결정을 할 때 도움을 줄 수 있는 데이터 분석 보고서를 만드는 역할
2. 데이터 사이언티스트(DS)
비즈니스 문제를 정의하고, 문제를 해결하기 위해서 데이터 분석 모델(ML/DL)을 만드는 역할
3. 데이터 엔지니어(DE)
내-외부 원천 데이터를 수집, 가공, 적재하여 데이터가 흐르는 파이프라인을 설계 및 구축하는 역할
데이터 엔지니어란?
데이터 엔지니어는 데이터 분석가나 데이터 사이언티스트가 데이터를 활용해서 데이터 분석, 머신러닝 모델 구현 등을 편하게 할 수 있도록 환경을 만들어주는 사람입니다.
데이터가 발생하는 시점에서부터 분석할 수 있도록 정제해 주는 역할이 필요한데 이것이 데이터 엔지니어의 핵심 역할입니다.
데이터를 수집(Extract), 가공(Transform), 적재(Load)하는 업무인 ETL을 할 수 있는 데이터 파이프라인을 설계하고 구축하는 것입니다.(ELT 순으로 할 수 도 있는 것 같음)
추가로 이 데이터 파이프라인을 운영, 모니터링하는 업무도 중요합니다.
데이터 엔지니어에게 필요한 역량
1. 컴퓨터 과학(cs) 지식이 필요합니다.
2. SQL과 프로그래밍 언어 한가지 이상을 능숙하게 다뤄야합니다.
3. 데이터 베이스와 데이터에 대한 이해가 필요합니다.
4. 다른 개발자와의 커뮤니케이션 능력도 필요합니다.
5. 클라우드 서비스 경험이 있다면 아주 좋습니다.
6. 도전 정신
데이터 엔지니어 로드맵
저는 많은 양에 압도 되었지만, 모든 걸 알 필요 없고 알 수도 없다고 합니다.
https://github.com/datastacktv/data-engineer-roadmap
GitHub - datastacktv/data-engineer-roadmap: Roadmap to becoming a data engineer in 2021
Roadmap to becoming a data engineer in 2021. Contribute to datastacktv/data-engineer-roadmap development by creating an account on GitHub.
github.com