로지스틱 회귀(Logistic Regression)

로지스틱 회귀는 선형 회귀로 분류 문제를 푸는 알고리즘입니다.

선형 회귀의 결과값은 $-\infty\sim\infty$의 범위를 가집니다.

이와 같은 결과값으로는 어떤 특정 범주에 속할 확률을 정확하게 알 수 없습니다.

 

하지만 선형회귀에 시그모이드(sigmoid) 함수를 씌우면 확률을 구할 수 있습니다.

시그모이드 함수 $\sigma(x) = \frac{1}{1 + e^{-x}}$

 

로지스틱 회귀모델은 다음과 같은 식으로 나타낼 수 있습니다.

 

로지스틱 회귀모델은 0과 1 사이의 값을 출력하며 출력값이 0.5 이상일 경우는 Class1로 0.5 미만일 경우는 Class0으로 분류합니다.

여기서 임계값은 0.5입니다.

 

Confusion Matrix(혼동행렬, 오차행렬)

예측 오류 및 오류의 유형을 아래와 같이 테이블 상에서 확인할 수 있습니다.

 

임계값

임계값이 변함에 따라 정밀도가 올라가고 재현율이 낮아지거나 정밀도가 낮아지고 재현율이 높아집니다.

그래서 정밀도와 재현율은 트레이드 오프 관계입니다.

1. 임계값이 커지면 모델이 Positive라고 예측하는 샘플의 수가 적어집니다.

  • Positive인데 Negative로 예측하는 비율이 높아집니다.  FN이 증가합니다.  Recall이 감소합니다.
  • Positive라고 예측하면 실제 Positive인 비율이 높아집니다.  FP가 감소합니다.  Precision이 증가합니다.

2. 임계값이 작아지면 모델이 Positive라고 예측하는 샘플의 수가 많아집니다.

  • Negative라고 예측하면 실제 Negative인 비율이 높아집니다.  FN 감소합니다.  Recall이 증가합니다.
  • Negative인데 Positive로 예측하는 비율이 높아집니다.  FP가 증가합니다.  Precision이 감소합니다.

 

ROC Curve

여러 임계값에 대해 TPR(True Positive Rate, recall)과 FPR(False Positive Rate)을 그래프로 보여줍니다.

ROC curve를 이용하면 최적의 임계값을 찾을 수 있습니다.

TPR이 최대가 되고 FPR이 최소가 되는 지점이 최적의 임계값입니다.

즉, TPR - FPR이 최대가 되는 지점을 찾으면 됩니다.

 

AUC

ROC 곡선 아래의 면적을 나타냅니다.

ROC 곡선 아래의 면적은 분류 모델의 성능을 나타내는 지표로 이용할 수 있습니다.

일반적으로 AUC 값이 1에 가까울수록 성능이 좋은 모델이며 0.5에 가까울수록 성능이 안 좋은 모델입니다.

'채워가는 지식 > AI' 카테고리의 다른 글

랜덤포레스트(Random Forests)  (0) 2022.09.16
결정트리(Decision Trees)  (0) 2022.09.15
선형회귀(Linear Regression)  (0) 2022.09.13
Machine Learning  (0) 2022.09.13
Clustering  (0) 2022.09.12

+ Recent posts