선형회귀(Linear Regression)
종속변수 Y와 1개 이상의 독립변수 X와의 선형 상관 관계를 모델링하는 회귀분석 기법입니다.
독립변수가 1개면 단순 선형 회귀, 2개이상이면 다중 선형 회귀라고 합니다.
단순 선형 회귀 : y=β0+β1x
다중 선형 회귀 : y=β0+β1x1+β2x2+⋯
여기서 모든 $\beta_i$는 회귀계수라고 합니다.
쉽게 이야기해보자면,
우리가 찾아낼 수 있는 가장 직관적이고 간단한 모델은 선(Line)입니다.
그래서 데이터를 놓고 그걸 가장 잘 설명할 수 있는 선을 찾는 분석하는 방법을 선형 회귀(Linear Regression) 분석이라 부릅니다.

위의 그래프를 단순 선형 회귀으로 분석한다고하면,
y=ax+b라는 선을 찾게 될 것이고, 선형 회귀 분석의 목적은 최적의 a,b를 찾는 것입니다.
선이라는 것은 실제 데이터와의 오차가 발생할 수 밖에 없습니다.
그렇기에 최적의 a,b를 찾는다는 것은 실제 데이터와의 오차를 최소화하는 것과 같습니다.
그래서 선형 모델의 목적은 이 오차를 줄이는 것입니다.
손실함수(loss function)
오차는 손실로 볼 수 있습니다.

여기서 손실함수는 각 데이터와 선과의 차이를 제곱하여 더하고 평균을 낸 평균 제곱 오차(MSE)를 사용하기도 하며,
각 데이터와 선과의 차이를 절대값을 취하여 더하고 평균을 낸 평균 절대 오차(MAE)를 사용하기도 합니다.
이 외에도 다른 손실함수들도 있습니다.
Ridge Regression
릿지 회귀는 기존 다중 회귀선을 훈련데이터에 과적합이 덜 되도록 해줍니다.

n : 샘플 수, p : 특성 수, λ : 패널티
위식은 λ가 핵심이고 λ는 alpha, lambda, regularization parameter, penalty term라고도 합니다.
릿지 회귀는 편향을 조금 더하고 분산을 줄이는 방법으로 정규화(Regularization)를 수행합니다.
여기서 말하는 정규화는 모델을 변형하여 과적합을 완화해 일반화 성능을 높여주기 위한 기법을 말합니다.

OLS와 λ값에 따른 릿지회귀



RidgeCV
사이킷런(sklearn) 라이브러리이며, 릿지회귀의 λ를 정해준 값들 중에 최적의 값을 찾아주는 라이브러리입니다.
'채워가는 지식 > AI' 카테고리의 다른 글
결정트리(Decision Trees) (0) | 2022.09.15 |
---|---|
Logistic Regression (0) | 2022.09.14 |
Machine Learning (0) | 2022.09.13 |
Clustering (0) | 2022.09.12 |
High dimensional data (0) | 2022.09.12 |