데이터를 분석하기 위해선 먼저 데이터를 수집해야 합니다.

데이터에는 서버에서 다운로드를 해서 얻는 데이터, API를 통해 얻는 데이터, 전처리(preprocessing)가 필요한 상태의 데이터가 있습니다.

 

이때 많이 사용하는 것이 스크립트 언어입니다.

데이터 분석에 쓰는 스크립트 언어는 여러가지가 있습니다.

데이터 엔지니어에게 인기 있는 것은 파이썬입니다.

파이썬은 Numpy 등의 수치 계산용 라이브러리와 머신러닝의 프레임워크가 충실하고 데이터 프레임 형태의 Pandas 라이브러리를 많이 사용합니다.

 

데이터 프레임(Data Frame)

데이터 프레임은 표 형식의 데이터를 추상화한 객체입니다.

Pandas 데이터 프레임 예시

데이터 프레임을 사용하면 스크립트 언어 안에서 데이터 가공과 집계를 할 수 있습니다.

즉, 분석하기 어려운 데이터 형태를 파이썬으로 데이터 프레임 형태로 변환하면 분석이 훨씬 수월해집니다.

물론,  DB에 접속하여 SQL의 결과를 파이썬의 데이터 프레임으로 가져와 분석 할 수 있습니다.

 

BI 도구

BI 도구는 데이터를 시각화 해주는 도구라고 보시면 됩니다.

스프레드시트 형식 되어 있는 데이터를 모니터링을 한다고 하면, 변화와 변화의 원인을 단숨에 파악하기엔 무리가 있습니다.

데이터를 시각화하여 모니터링을 한다면 보다 변화와 변화의 원인을 파악하기 쉬워집니다.

BI 도구로는 Tableau Public, 구글 Data Studio 등이 있습니다.

Tableau Public는 주로 블로그에 공개하는 데이터를 위해 만들어지기 때문에 회사에 적합하지 않지만 BI 도구를 이해하는데 도움이 됩니다.

구글 Data Studio

 

'to become 데이터 엔지니어 > 간단한 정리' 카테고리의 다른 글

빅데이터 파이프라인  (0) 2023.01.09
빅데이터의 축적  (0) 2023.01.06
빅데이터의 분산 처리  (0) 2023.01.05
빅데이터 탐색  (0) 2022.12.29
데이터 파이프라인  (0) 2022.12.28

+ Recent posts