原理

設法將原來變數重新組合成一組新的互相無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的綜合變數儘可能多地反映原來變數的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。
套用學科
主成分分析作為基礎的數學分析方法,其實際套用十分廣泛,比如人口統計學、數量地理學、分子動力學模擬、數學建模、數理分析等學科中均有套用,是一種常用的多變數分析方法。
成分分析
成分分析(包含成分檢測、成分測試項目)是通過微觀譜圖對未知成分進行分析的技術方法,因該技術普遍採用光譜,色譜,能譜,熱譜,質譜等微觀譜圖。
內容
基本思想

主成分分析,是考察多個變數間相關性一種多元統計方法,研究如何通過少數幾個主成分來揭示多個變數間的內部結構,即從原始變數中導出少數幾個主成分,使它們儘可能多地保留原始變數的信息,且彼此間互不相關.通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。
最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現在F2中,用數學語言表達就是要求Cov(F1,F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。
步驟
Fp=a1i*ZX1+a2i*ZX2+……+api*ZXp
其中a1i,a2i,……,api(i=1,……,m)為X的協方差陣Σ的特徵值所對應的特徵向量,ZX1,ZX2,……,ZXp是原始變數經過標準化處理的值,因為在實際套用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數據標準化,本文所採用的數據就存在量綱影響[註:本文指的數據標準化是指Z標準化。
主成分分析法的計算步驟
主成分分析法的計算步驟
A=(aij)p×m=(a1,a2,…am,),
Rai=λiai,
R為相關係數矩陣,λi、ai是相應的特徵值和單位特徵向量,λ1≥λ2≥…≥λp≥0。
進行主成分分析主要步驟如下:
1.指標數據標準化(SPSS軟體自動執行);
2.指標之間的相關性判定;
3.確定主成分個數m;
4.主成分Fi表達式;
5.主成分Fi命名;