기술 통계치(Descriptive Statistics)
수집한 데이터를 요약 묘사 설명하는 통계기법
ex) count, mean, standard dev, min, 1Q, median, 3Q, max
기술 통계치의 시각화 종류
1. bag plot

2. box plot과 violin plot

추리 통계치(Inferential Statistics)
수집한 데이터를 바탕으로 어떤 것을 추론 예측하는 통계 기법
추리 통계치 기법 과정

샘플링(sampling) 기법
1. Simple Random Sampling
모집단에서 sampling을 무작위로 하는 방법입니다.

2. Systematic Sampling
모집단에서 sampling을 할 때 규칙을 가지고 추출하는 방법입니다. ex) 1, 6, 11, 16, ... 번째의 데이터를 선택

3. Stratified Random Sampling
모집단을 미리 여러 그룹으로 나누고, 그 그룹별로 무작위 추출을 수행하는 방법입니다. ex) 여론 조사를 위해 사람을 나이대 별로 나누고, 해당 그룹안에서 무작위 추출.

4. Cluster Sampling
모집단을 미리 여러 그룹으로 나누고, 이후 특정 그룹을 무작위로 선택하는 방법입니다.

가설 검정
모집단의 실제 값에 대한 sample의 통계치를 사용해서 통계적으로 유의한지 아닌지 여부를 판정
표본 평균의 표준 오차 ( Standard Error of the Sample Mean )

가설 검정에 쓰이는 값이고, s = 표본의 표준편차, n = 표본의 수 입니다.
표본의 수가 많아질수록 표본 평균의 표준 오차가 줄어들므로 높은 신뢰도를 바탕으로 예측할 수 있게됩니다.
Student T-test
가설 검정 방법 중 하나
One Sample t-test
1개의 smaple 값들의 평균이 특정값과 동일한지 비교
T-test 과정
1. 귀무가설 설정(평균이 특정값과 동일하다)
2. 대안가설 설정
3. 신뢰도 설정
4. p-value 확인
P-value의 기준
1. p-value < 0.01 : 귀무가설이 옳을 확률이 1%이하 -> 틀렸다 (깐깐한 기준)
2) p-value < 0.05 : 귀무가설이 옳을 확률이 5%이하 -> 틀렸다 (일반적인 기준)
3) 0.05 ~ p-value ~ 0.1 사이인 경우: (애매함)
- 실험을 다시한다.
- 데이터를 다시 뽑는다.
- 샘플링을 다시한다.
- 기존의 경험 / 인사이트를 바탕으로 가설에 대한 결론을 내린다.
4) p-value > 0.1 : 귀무가설이 옳을 확률이 10%이상 -> 귀무가설이 맞다 ~ 틀리지 않았을것이다
One-side test vs Two-side test
Two side test : 샘플 데이터의 평균이 특정값과 같다 / 같지 않다를 검정하는 내용
One side test : 샘플 데이터의 평균이 특정값보다 크다 혹은 작다 / 크지 않다 작지 않다를 검정하는 내용
Two Sample T-test
2개의 sample 값들의 평균이 서로 동일한지 비교
t-test를 사용하기 위한 조건 가정
1. 독립성
2. 등분산성
3. 정규성
'채워가는 지식 > AI' 카테고리의 다른 글
Confidence Intervals (0) | 2022.09.07 |
---|---|
More Hypothesis Testing (0) | 2022.09.06 |
Data Manipulation (0) | 2022.09.01 |
Feature Engineering (0) | 2022.09.01 |
EDA (0) | 2022.08.31 |