Principalkomponentanalys

Principalkomponentanalys, ofta förkortat PCA av engelskans principal component analysis, är en linjär ortogonal transform som gör att den transformerade datans dimensioner är ortogonala; det vill säga att de är oberoende och inte har någon kovarians (eller korrelation). PCA introducerades 1901 av Karl Pearson.^[1] Alternativa namn är Karhunen–Loève transform (KLT), Hotellingtransform och proper orthogonal decomposition (POD). PCA har likheter med faktoranalys som till skillnad från PCA inte är en ortogonal transform.

Thumb image — PCA av en multivariabel Gaussfördelning centrerad vid (1,3) med standardavvikelse 3. Vektorerna är egenvektorerna av kovariansmatrisen skalad med kvadratroten ur respektive egenvärde, och flyttade så att de utgår från datans medelvärde.

Typiskt beräknar man PCA på kovariansmatrisen eller korrelationsmatrisen av datan. PCA innebär nu att hitta en linjär transform av data så att kovariansmatrisen blir diagonal, dvs i vilka riktningar data varierar mest. PCA beräknas genom singulärvärdesuppdelning där man beräknar egenvektorerna och dess egenvärden. Egenvektorerna utgör basen för transformerade data, dessa kallas för principalkomponenter eller principalaxlar och utgör de nya dimensionerna; ett nytt koordinatsystem. Detta förfarande kallas även diagonalisering av kovariansmatrisen. Egenvärdena utgör variansen längs med den komponenten. På det här sättet behåller man så mycket som möjligt av variansen i data samtidigt som de nya dimensionerna hålls okorrelerade. Det betyder att den första komponenten representerar den största okorrelerade variansen i data.

Det är vanligt att man använder PCA för att reducera antalet dimensioner i data. Eftersom komponenterna är valda efter storlek av oberoende varians antar man att man kan behålla mycket av informationen i data genom att använda enbart de komponenter som representerar en stor del av variansen. Man antar ofta att komponenterna som representerar de lägsta nivåerna av varians utgör brus i data. Genom att använda de första komponenterna och exkludera de övriga kan man representera en stor del av variansen i data. Om man antar att informationen av intresse utgörs av varians är detta ett sätt att reducera antalet dimensioner i data. Denna egenskap kan användas för att lättare hitta samband, kompression, visualisering, utforskande analys av data, eller för att underlätta vidare statistisk analys.

[1]