daco 2022. 8. 31. 16:47

AI를 다루게 된다면

  • 불러올만한지 데이터인지 파악하고
  • 데이터를 불러오고
  • 데이터를 분석하고
  • 데이터를 다루고
  • 데이터로부터 모델링하고
  • 결과 분석하고
  • 보완하고

위의 과정을 하게 될 것입니다.

 

데이터

정말로 잘 설계되고, 수집된 데이터가 아니라면 raw data (원본데이터)를 바로 분석에 사용하기에는 어렵습니다.

데이터는 일반적으로 사각형의 형태를 가지고 있습니다.

이 테이블형태의 숫자만 보고 인사이트를 바로 얻기는 어렵습니다.

이를 위해서 전체적인 견적을 내는 분석이 EDA 입니다.

 

EDA 과정

1. 데이터를 파악하는 과정에서 볼 점은

  • 행과 열의 수
  • 열에 헤더가 있는지 ("데이터 이름"이 있는지?)
  • 원본의 형태를 확인하기

2. 데이터를 불러오는 방법들(기본적으로 pandas.read_csv()를 사용)

  • url을 이용하여 불러오기
  • 로컬에 데이터를 다운로드하여 불러오기
  • 코랩이라면 구글드라이브에 업로드하여 불러오기
  • DB에서 불러오기

3. 데이터 분석하는 방법들

  • Graphic : 차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법입니다.
    ex) QQ-plot, heat map, box plot 등등..
  • Non-Graphic :그래픽적인 요소를 사용하지 않는 방법으로, 주로 Summary Statistics를 통해 데이터를 확인하는 방법입니다.

 

데이터 전처리 과정

데이터를 분석하기 전에 데이터 전처리를 하지 않으면 잘못된 데이터를 통해 잘못된 인사이트, 결론을 얻을 수 있습니다.

데이터, 분석 목적, 작업마다 해야하는 데이터의 전처리는 다르지만 크게 다음과 같은 flow를 갖습니다.

 

1. Cleaning(클리닝)

  • 결측치 처리
    결측치란, 데이터들 중에 비어있는 값

  • 이상치 처리
    이상치란, 보통 관측된 데이터 범위에 벗어난 엄청 큰 값 또는 엄청 작은 값

  • Noise(잡음) 제거
    Noise란, 큰 방향성에서 벗어난 random error 혹은 variance를 포함하는 데이터
  • etc

2. Integration(통합)

  • 여러개로 나누어져 있는 데이터들을 분석하기 편하게 하나로 합치는 과정을 의미합니다.

3. Transformation(변환)

  • 데이터의 형태를 변환하는 작업으로, scaling이라고 부르기도 합니다.

4. Reduction(축소)

  • 데이터를 의미있게 줄이는 것을 의미하며, dimension reduction(차원 축소)과 유사한 목적을 갖습니다.