채워가는 지식/AI
EDA
daco
2022. 8. 31. 16:47
AI를 다루게 된다면
- 불러올만한지 데이터인지 파악하고
- 데이터를 불러오고
- 데이터를 분석하고
- 데이터를 다루고
- 데이터로부터 모델링하고
- 결과 분석하고
- 보완하고
위의 과정을 하게 될 것입니다.
데이터
정말로 잘 설계되고, 수집된 데이터가 아니라면 raw data (원본데이터)를 바로 분석에 사용하기에는 어렵습니다.
데이터는 일반적으로 사각형의 형태를 가지고 있습니다.
이 테이블형태의 숫자만 보고 인사이트를 바로 얻기는 어렵습니다.
이를 위해서 전체적인 견적을 내는 분석이 EDA 입니다.
EDA 과정
1. 데이터를 파악하는 과정에서 볼 점은
- 행과 열의 수
- 열에 헤더가 있는지 ("데이터 이름"이 있는지?)
- 원본의 형태를 확인하기
2. 데이터를 불러오는 방법들(기본적으로 pandas.read_csv()를 사용)
- url을 이용하여 불러오기
- 로컬에 데이터를 다운로드하여 불러오기
- 코랩이라면 구글드라이브에 업로드하여 불러오기
- DB에서 불러오기
3. 데이터 분석하는 방법들
- Graphic : 차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법입니다.
ex) QQ-plot, heat map, box plot 등등.. - Non-Graphic :그래픽적인 요소를 사용하지 않는 방법으로, 주로 Summary Statistics를 통해 데이터를 확인하는 방법입니다.
데이터 전처리 과정
데이터를 분석하기 전에 데이터 전처리를 하지 않으면 잘못된 데이터를 통해 잘못된 인사이트, 결론을 얻을 수 있습니다.
데이터, 분석 목적, 작업마다 해야하는 데이터의 전처리는 다르지만 크게 다음과 같은 flow를 갖습니다.
1. Cleaning(클리닝)
- 결측치 처리
결측치란, 데이터들 중에 비어있는 값 - 이상치 처리
이상치란, 보통 관측된 데이터 범위에 벗어난 엄청 큰 값 또는 엄청 작은 값 - Noise(잡음) 제거
Noise란, 큰 방향성에서 벗어난 random error 혹은 variance를 포함하는 데이터 - etc
2. Integration(통합)
- 여러개로 나누어져 있는 데이터들을 분석하기 편하게 하나로 합치는 과정을 의미합니다.
3. Transformation(변환)
- 데이터의 형태를 변환하는 작업으로, scaling이라고 부르기도 합니다.
4. Reduction(축소)
- 데이터를 의미있게 줄이는 것을 의미하며, dimension reduction(차원 축소)과 유사한 목적을 갖습니다.