簡介
英文名:Principal Component Regression
主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標。
原理
在實證問題研究中,為了全面、系統地分析問題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標,在多元統計分析中也稱為變數。因為每個變數都在不同程度上反映了所研究問題的某些信息,並且指標之間彼此有一定的相關性,因而所得的統計數據反映的信息在一定程度上有重疊。在用統計方法研究多變數問題時,變數太 多會增加計算量和增加分析問題的複雜性,人們希望在進行定量分析的過程中,涉及的變數較少,得到的信息量較多。
主成分分析法是一種數學變換的方法, 它把給定的一組相關變數通過線性變換轉成另一組不相關的變數,這些新的變數按照方差依次遞減的順序排列。在數學變換中保持變數的總方差不變,使第一變數具有最大的方差,稱為第一主成分,第二變數的方差次大,並且和第一變數不相關,稱為第二主成分。依次類推,I個變數就有I個主成分。 其中Li為p維正交化向量(Li*Li=1),Zi之間互不相關且按照方差由大到小排列,則稱Zi為X的第I個主成分。設X的協方差矩陣為Σ,則Σ必為半正定對稱矩陣,求特徵值λi(按從大到小排序)及其特徵向量,可以證明,λi所對應的正交化特徵向量,即為第I個主成分Zi所對應的係數向量Li,而Zi的方差貢獻率定義為λi/Σλj,通常要求提取的主成分的數量k滿足Σλk/Σλj>0.85。 是希望用較少的變數去解釋原來資料中的大部分變異,將我們手中許多相關性很高的變數轉化成彼此相互獨立或不相關的變數。通常是選出比原始變數個數少,能解釋大部分資料中的變異的幾個新變數,即所謂主成分,並用以解釋資料的綜合性指標。由此可見,主成分分析實際上是一種降維方法。