주성분 분석

주성분 분석(主成分分析, Principal component analysis; PCA)은 고차원의 데이터를 저차원의 데이터로 환원시키는 기법을 말한다. 이 때 서로 연관 가능성이 있는 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간(주성분)의 표본으로 변환하기 위해 직교 변환을 사용한다. 데이터를 한개의 축으로 사상시켰을 때 그 분산이 가장 커지는 축을 첫 번째 주성분, 두 번째로 커지는 축을 두 번째 주성분으로 놓이도록 새로운 좌표계로 데이터를 선형 변환한다. 이와 같이 표본의 차이를 가장 잘 나타내는 성분들로 분해함으로써 데이터 분석에 여러 가지 이점을 제공한다. 이 변환은 첫째 주성분이 가장 큰 분산을 가지고, 이후의 주성분들은 이전의 주성분들과 직교한다는 제약 아래에 가장 큰 분산을 갖고 있다는 식으로 정의되어있다. 중요한 성분들은 공분산 행렬의 고유 벡터이기 때문에 직교하게 된다.

주성분 분석은 신호처리 분야에서는 이산 카루넨-뢰브 변환, 다변량 품질 관리에서는 호텔링 변환, 기계공학에서는 적합 직교 분해(POD), 선형대수학에서는 특잇값 분해^[1] 또는 고윳값 분해, 인자 분석^[2]^{:Chapter 7}, 심리측정학의 Eckart–Young 이론 (Harman, 1960) 또는 Schmidt–Mirsky 이론, 기상 과학의 실증 직교 함수(EOF), 소음과 진동의 실증적 고유 함수 분해(Sirovich, 1987)와 실증적 요소 분석(Lorenz, 1956), 준조화모드(Brooks et al., 1988), 스펙트럼 분해, 구조 동역학의 실증적 모델 분석 등으로 응용된다.

주성분 분석은 실제 고유 벡터 기반의 다변량 분석들 중 가장 간단한 방식이다. 만약 다변량 데이터 집합이 변수당 1개의 축이 있는 높은 차원의에서 보았을 때 단순히 좌표의 집합으로 보인다면, 주성분 분석은 이를 낮은 차원으로 끌어내려 일종의 그림자를 보고 분석할 수 있게 도와준다. 이는 가장 주요한 일부 요소들을 보여줌으로써 변환된 데이터의 차원수를 줄임으로써 끝난다.

주성분 분석은 인자 분석과 밀접한 관계를 갖고 있다. 인자 분석은 일반적으로 기저 구조에 대한 영역 한정적인 가정을 포함하고, 약간의 차이가 있는 행렬의 고유 벡터를 풀어낸다.

또한 주성분 분석은 정준상관분석(CCA)과도 관계가 있다. 주성분 분석이 하나의 데이터 집합의 변화를 제일 잘 설명하는 새로운 데카르트 좌표 시스템을 정의하는 반면 정준상관분석은 두 개의 데이터 집합간의 교차 공분산을 가장 잘 설명하는 좌표 시스템을 정의한다.^[3]^[4]

주성분 분석은 가장 큰 분산을 갖는 부분공간을 보존하는 최적의 선형 변환이라는 특징을 갖는다. 그러나 이산 코사인 변환과 같은 다른 방법에 비해 더 많은 계산시간을 요구하는 단점이 있다. 다른 선형 변환과 달리 주성분 분석은 정해진 기저 벡터를 갖지 않으며, 기저 벡터는 데이터의 특성에 따라 달라진다.

[1]

[2]

[3]

[4]