로지스틱 회귀(Logistic Regression)
로지스틱 회귀는 선형 회귀로 분류 문제를 푸는 알고리즘입니다.
선형 회귀의 결과값은 $-\infty\sim\infty$의 범위를 가집니다.
이와 같은 결과값으로는 어떤 특정 범주에 속할 확률을 정확하게 알 수 없습니다.
하지만 선형회귀에 시그모이드(sigmoid) 함수를 씌우면 확률을 구할 수 있습니다.
시그모이드 함수 $\sigma(x) = \frac{1}{1 + e^{-x}}$
로지스틱 회귀모델은 다음과 같은 식으로 나타낼 수 있습니다.
로지스틱 회귀모델은 0과 1 사이의 값을 출력하며 출력값이 0.5 이상일 경우는 Class1로 0.5 미만일 경우는 Class0으로 분류합니다.
여기서 임계값은 0.5입니다.
Confusion Matrix(혼동행렬, 오차행렬)
예측 오류 및 오류의 유형을 아래와 같이 테이블 상에서 확인할 수 있습니다.
임계값
임계값이 변함에 따라 정밀도가 올라가고 재현율이 낮아지거나 정밀도가 낮아지고 재현율이 높아집니다.
그래서 정밀도와 재현율은 트레이드 오프 관계입니다.
1. 임계값이 커지면 모델이 Positive라고 예측하는 샘플의 수가 적어집니다.
- Positive인데 Negative로 예측하는 비율이 높아집니다. → FN이 증가합니다. → Recall이 감소합니다.
- Positive라고 예측하면 실제 Positive인 비율이 높아집니다. → FP가 감소합니다. → Precision이 증가합니다.
2. 임계값이 작아지면 모델이 Positive라고 예측하는 샘플의 수가 많아집니다.
- Negative라고 예측하면 실제 Negative인 비율이 높아집니다. → FN 감소합니다. → Recall이 증가합니다.
- Negative인데 Positive로 예측하는 비율이 높아집니다. → FP가 증가합니다. → Precision이 감소합니다.
ROC Curve
여러 임계값에 대해 TPR(True Positive Rate, recall)과 FPR(False Positive Rate)을 그래프로 보여줍니다.
ROC curve를 이용하면 최적의 임계값을 찾을 수 있습니다.
TPR이 최대가 되고 FPR이 최소가 되는 지점이 최적의 임계값입니다.
즉, TPR - FPR이 최대가 되는 지점을 찾으면 됩니다.
AUC
ROC 곡선 아래의 면적을 나타냅니다.
ROC 곡선 아래의 면적은 분류 모델의 성능을 나타내는 지표로 이용할 수 있습니다.
일반적으로 AUC 값이 1에 가까울수록 성능이 좋은 모델이며 0.5에 가까울수록 성능이 안 좋은 모델입니다.
'채워가는 지식 > AI' 카테고리의 다른 글
랜덤포레스트(Random Forests) (0) | 2022.09.16 |
---|---|
결정트리(Decision Trees) (0) | 2022.09.15 |
선형회귀(Linear Regression) (0) | 2022.09.13 |
Machine Learning (0) | 2022.09.13 |
Clustering (0) | 2022.09.12 |