Variance(분산)
데이터가 얼마나 퍼져있는지를 측정하는 방법입니다.
분산은 각 값들의 평균으로부터 차이의 제곱 평균입니다.
분산은 $v$ 또는 $\sigma ^{2}$로 표기됩니다.
Standard Deviation(표준편차)
표준편차는 분산의 값에 루트를 씌운 것입니다.
분산은 제곱 값들을 더하기 때문에 평균에 비해서 스케일이 커지는 문제가 있을 수 있는데,
표준편차는 이를 해결 하기 위해서 제곱 된 스케일을 낮춘 방법입니다.
Covariance(공분산)
1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정하는 것입니다.
첫번째 그래프는 음의 (negative) 공분산 값을 갖습니다.
두번째 그래프는 0에 가까운 공분산 값을 갖습니다.
세번째 그래프는 양의 (positive) 공분산 값을 갖습니다.
큰 값의 공분산은 두 변수간의 큰 연관성을 나타냅니다.
그러나, 만약 변수들이 다른 스케일을 가지고 있다면 공분산은 실제 변수의 연관성에 관계 없이 영향을 받게 될 것입니다.
다시 말하면 만약 두 변수가 연관성이 적더라도 큰 스케일을 가지고 있다면, 연관이 높지만 스케일이 작은 변수들에 비해서 높은 공분산 값을 가지게 될 것입니다.
Variance-covariance matrix
이러한 matrix를 variance-covariance matrix 라고 표현하며,
대각선 부분은 분산이고 나머지 부분은 공분산입니다.
Correlation coefficient(상관 계수)
상관 계수는 공분산에 두 변수의 표준편차로 각각 나눠서 스케일을 -1 ~ 1의 범위로 조정 한 것입니다.
상관계수는 공분산에 비해서 더 좋은 지표인 이유는 다음과 같습니다.
1. 공분산은 이론상 모든 값을 가질 수 있지만, 상관계수는 -1 ~ 1 사이로 정해져 비교하기가 쉽습니다.
2. 공분산은 항상 스케일, 단위를 포함하고 있지만, 상관계수는 이에 영향을 받지 않습니다.
3. 상관계수는 데이터의 평균 혹은 분산의 크기에 영향을 받지 않습니다.
상관 계수는 일반적으로 소문자 $r$로 표현됩니다.
spearman correlation coefficient
이전까지의 상관 계수는 Pearson correlation이라 부르며,
데이터로부터 분산과 같은 통계치를 계산 할 수 있을때 사용 가능합니다.
그러나 만약 데이터가 numeric(숫자형)이 아니라, categorical(범주형)이라면 spearman correlation coefficient를 사용할 수 있습니다.
spearman correlation coefficient는 값들에 대해서 순서 혹은 rank를 매기고, 그를 바탕으로 correlation을 측정하는 Non-parametric한 방식입니다.
Orthogonality(직교성)
벡터 혹은 매트릭스가 서로 수직으로 있는 상태를 나타냅니다.
좌표상에 있는 거의 모든 벡터는 다른 벡터와 상관이 아주 작게라도 있습니다.
하지만 수직인 벡터만 상관 관계가 전혀 없습니다.
Unit Vectors (단위벡터)
단위 길이 즉, 1을 갖는 모든 벡터를 말합니다.
모든 벡터는 단위 벡터의 선형 조합으로 표기됩니다.
$v = [5, 30]$
$~~= [1, 0]⋅5 + [0, 1]⋅30$
$~~= 5 ⋅ \hat{i} + 30 ⋅ \hat{j} $
Span
주어진 두 벡터의 (합이나 차와 같은) 조합으로 만들 수 있는 모든 가능한 벡터의 집합입니다.
선형 관계의 벡터 (Linearly Dependent Vector)
만약 두 벡터가 같은 선상에 있는 경우, 이 벡터들은 선형 관계에 있다고 표현합니다.
즉, 이 두 벡터들은 조합을 통해서 선 외부의 새로운 벡터를 생성 할 수 없습니다.
이러한 벡터의 span은 평면 공간이 아닌, 벡터가 이미 올려져 있는 선으로 제한 됩니다.
선형 관계가 없는 벡터 (Linearly Independent Vectors)
반대로 같은 선상에 있지 않은 벡터들은 선형적으로 독립되어 있다고 표현하며,
주어진 공간 (2개의 벡터의 경우 $\mathbb{R}^2$ 평면)의 모든 벡터를 조합을 통해 만들어 낼 수 있습니다.
Basis
벡터 공간 $V$의 basis는 $V$라는 공간을 채울 수 있는 선형 관계에 있지 않은 벡터들의 모음입니다.
예를 들어, 위의 그림에서 2개의 벡터(빨강, 파랑)는 벡터 공간 $\mathbb{R}^2$ 의 basis 입니다.
Orthogonal Basis
Basis 에 추가로 Orthogonal 한 조건이 붙는, 즉 주어진 공간을 채울 수 있는 서로 수직인 벡터들입니다.
Orthonormal Basis
Orthogonal Basis에 추가로 Normalized 조건이 붙은 것으로, 길이가 서로 1인 벡터들입니다.
Rank
매트릭스의 rank란, 매트릭스의 열을 이루고 있는 벡터들로 만들 수 있는 (span) 공간의 차원입니다.
매트릭스의 차원과는 다를 수도 있으며 그 이유는 행과 열을 이루고 있는 벡터들 가운데 서로 선형 관계가 있을 수도 있기 때문입니다.
Gaussian Elimination(가우스 소거법)
가우스 소거법은 주어진 매트릭스를 Row-Echelon form으로 바꾸는 계산과정입니다.
여기서 Row-Echelon form이란, 각 행에 대해서 왼쪽에 1, 그 이후 부분은 0으로 이뤄진 형태입니다.
이러한 매트릭스는 일반적으로 upper-triangular 의 형태를 가지고 있습니다.
계산과정은 2개의 행을 바꾸나 1개의 행에 스칼라 곱을 한 후 다른 행에 더하거나 뺍니다.
마지막 행이 전부 0이란 것은 3개의 행이 선형 관계에 있다는 것입니다.
즉, 처음에 주어진 매트릭스 $P$의 Rank는 2이며 이는 3x3 매트릭스 이지만 $\mathbb{R}^3$ 공간이 아닌 $\mathbb{R}^2$만을 벡터들로 만들어 낼 수 있음을 의미합니다.
Linear Projections(선형 투영)
($\mathbb{R}^2$ 공간에서의)
'채워가는 지식 > AI' 카테고리의 다른 글
Clustering (0) | 2022.09.12 |
---|---|
High dimensional data (0) | 2022.09.12 |
벡터와 메트릭스 ( Vectors and Matrices ) (0) | 2022.09.07 |
베이지안 통계 개론 (Bayesian Inference) (0) | 2022.09.07 |
Confidence Intervals (0) | 2022.09.07 |