探索性因子分析法(Exploratory Factor Analysis,EFA)
什麼是探索性因子分析法?
探索性因子分析法(Exploratory Factor Analysis,EFA)是一項用來找出多元觀測變數的本質結構、並進行處理降維的技術。 因而,EFA能夠將將具有錯綜複雜關係的變數綜合為少數幾個核心因子。探索性因子分析法的起源
因子分析法是兩種分析形式的統一體, 即驗證性分析和純粹的探索性分析。 英國的心理學家Charles Spearman在1904年的時候,提出單一化的智慧型因子(A Single Intellectual Factor)。 隨著試驗的深入,大量個體樣本被分析研究,Spearman的單一智慧型因子理論被證明是不充分的。 同時,人們認識到有必要考慮多元因子。 20世紀30年代,瑞典心理學家Thurstone打破了流行的單因理論假設,大膽提出了多元因子分析(Multiple Factor Analysis)理論。 Thurstone在他的《心智向量》(Vectors of Mind, 1935)一書中,闡述了多元因子分析理論的數學和邏輯基礎。探索性因子分析法的計算
在運用EFA法的時候,可以藉助統計軟體(如SPSS統計軟體或SAS統計軟體)來進行數據分析。探索性因子分析法的運用
1、顧客滿意度調查。2、服務質量調查。
3、個性測試。
4、形象調查。
5、市場劃分識別。
6、顧客、產品及行為分類。
探索性因子分析法的步驟
一個典型的EFA流程如下:1、辨認、收集觀測變數。
2、獲得協方差矩陣(或Bravais-Pearson的相似係數矩陣)
3、驗證將用於EFA的協方差矩陣(顯著性水平、反協方差矩陣、Bartlett球型測驗、反圖像協方差矩陣、kmo測度)。
4、選擇提取因子法(主成分分析法、主因子分析法)。
5、發現因素和因素裝貨。 因素裝貨是相關係數在可變物(列在表里)和因素(專欄之間在表里)。
6、確定提取因子的個數(以Kaiser準則和scree測試作為提取因子數目的準則)。
7、解釋提取的因子(例如,在上述例子中即解釋為“潛在因子”和“流程因子”)。
探索性因子分析法的優點
1、EFA法便於操作。2、當調查問卷含有很多問題時,EFA法顯得非常有用。
3、EFA法既是其他因子分析工具的基礎(如計算因子得分的回歸分析),也方便與其他工具結合使用(如驗證性因子分析法)。
探索性因子分析法的缺點
1、變數必須有區間尺度。2、沉降數值至少要要變數總量的3倍。
探索性因子分析法的假定
對於主因子分析法來說,不存在異常值、等距值、線形值、多變數常態分配以及正交性等情況。EFA在教育、心理領域存在的問題及建議[1]
1.樣本容量、觀測變數數目不夠很多套用探索性因子分析的研究中,普遍存在的一個問題就是樣本容量及觀測變數數目太小。探索性因子分析中,一般要求樣本容量至少為100-200,當變數的公共方差較大時,則一定數目的小樣本也能確保因子負載的穩定性。國內學者曾做過一項調查,結果表明:1991-2000年國內兩種心理學期刊發表的運用因子分析的文章中,有近10%的文章研究樣本小於100,甚至有多達50%的文章沒有提供這一信息。而對於觀測變數的數目,一般認為,觀測變數與所提取的因子數目之比至少為4。很多研究者認為觀測變數的數目並不與被提取的因子數目相關聯,因為研究者事先並不知道會有多少個因子被提取出來,因此,無法依據被提取的因子個數對觀測變數的數目進行安排,但是,實際上很多研究者在因子分析前對所探討的觀測變數的因子結構已有了一定的預期。教育、心理領域中,存在著相當數量的研究並未達到這些標準。這或許是由於研究者對因子分析的要旨理解不深,但更有可能的是研究者對這類方法的細節重視不夠。
2.因子提取方法的誤用
探索性因子分析中最常用的提取因子的方法主要有兩種:主成分分析法和主軸因子法。決定選用何種方法時,一般有兩點值得考慮:一是因子分析的目的;二是對變數方差的了解程度。如果因子分析的目的是用最少的因子最大程度解釋原始數據的方差,則套用主成分分析法;若因子分析的主要目的是確定數據結構,則適合用主軸因子法。
實際上,雖然研究者大多認為主成分分析法和主軸因子法的結果差別不大,但是Widman提出,主軸因子法使用復相關係數的平方作為公共方差的初始估計值,通過不斷重複,最後得到確定的公共方差的值,所以,這一過程比起主成分分析法,因子負載就更準確。因此,他建議研究者最好使用主軸因子法而不是主成分分析法。但實際研究中,研究者大量使用的是主成分分析法,導致這一結果的最直接可能就是SPSS軟體的預設設定即為主成分分析法。
3.因子數目的確定標準及因子鏇轉中存在的問題
心理領域中,研究者運用的確定因子數目的標準大多是Kaiser法,即特徵值≥1.0的標準。SPSS中,預設的提取因子方法就是Kaiser法,但實際這一標準僅僅適用於主成分分析法。Fabrigar等人提出,特徵值≥1.0的標準通常會導致提取過多的因子。當因子提取過多時,因子的重要性就值得懷疑了。例如,假設有這樣的案例,分別從5個變數和10個變數中提取因子,在5個變數的情況下,特徵值為1.0的因子將解釋變數總方差的20%(1/5,每個變數的方差估計為1,總方差即為5);相應地,在10個變數的情況下,同樣特徵值為1.0的因子只能解釋總體方差的10%(1/10),顯然,當從大量變數中提取因子時,使用這樣的標準將導致所提取的因子只能解釋總方差很小的一部分。而碎石檢驗準則的主觀性太強,並且,在有些情況下,因子的特徵值並沒有臨界點,因為因子特徵值是以一種線性的方式逐漸下降的,所以這種情況是可能存在的,例如雙重負荷現象,因此,這種方法並沒有太強的使用價值。一般推薦使用Reise等人的平行分析方法來確定因子的數目。這種標準比起碎石檢驗標準來說,減少了研究者主觀因素的影響,結果也更客觀、真實、有效。
雖然正交鏇轉能容易地解釋和表示因子分析的結果,但由於其規定因子間不相關,因此正交鏇轉的結果往往並不符合實際。建議在探索性因子分析中使用斜交鏇轉法,它既能很容易地解釋因子,同時也確保了因子間的簡單結構,更重要的是,允許因子間的相關也更符合現實。例如,在探索性因子分析中提取出了家庭受教育水平和家庭經濟收入這兩個因子,如果勉強進行正交鏇轉,忽視兩因子間的相關,必然會對結果造成很大的影響,實際上這兩個因子都屬於家庭社會經濟地位的範疇,具有很高的相關,因此,進行斜交鏇轉,允許兩因子間的相關,這樣得到的結果才更有說服力。實際研究中,研究者更多地還是採用了正交鏇轉的方法,1991-2000年國內兩種心理學期刊發表的運用因子分析的文章中,高達60%的文章使用正交鏇轉,而斜交鏇轉只占到了6%。
4.因子值缺乏重複驗證性
心理、教育領域中,研究者求解因子值時,絕大多數依賴的是SPSS,而該軟體所提供的求解因子值的方法最後求得的因子值是以一種加權的方式獲得的,這就使得這些因子值只適用於特定的樣本,缺乏重複驗證性。
為了克服這一缺陷,研究者建議使用一種簡單的非加權的方法,該方法首先鑑別出在某一因子上有較高負載的變數,然後將這些負載的值相加,從而得到能反映該因子的一種特定的因子值。使用這種方法研究者將失去變數在因子上的負載信息,但是,這樣得到的因子值與SPSS提供的各種權重的因子值具有較高相關,因此,使用這種簡單的策略獲得的因子值是很有意義的,它能克服缺乏重複驗證的缺陷。
當然,因子值本身實質上還是一種觀測變數,存在一定的隨機誤差,可以使用潛變數模型的方法來消除這些隨機誤差。
5.研究結果的呈現形式不規範
因子分析結果的呈現中,哪些信息需要研究者明確提供都有一定的規定,但教育、心理領域的套用中,很少有研究者能提供完整的信息。作為因子分析的基礎,相關矩陣是最根本的,研究者必須提供,否則,研究結果就缺乏重複驗證的可能;另外,鏇轉前後因子所解釋的方差、因子負載矩陣等信息也必須提供。
6.過於依賴SPSS,缺乏主動性
近年來因子分析套用中存在的最大的問題就是研究者過於依賴SPSS軟體,往往是電腦控制人腦,研究者喪失了主動性。前面所討論的因子分析實際套用中存在的一些主要問題,很大一部分是由SPSS本身所導致的。研究者進行因子分析時,大多脫離自己的實際研究,盲目地採用SPSS的各種預設設定,最後導致獲得的研究結果缺乏可信性,不符合實際研究的需要。例如,在連續性或非連續性(如二分類)變數的因子分析中,研究者應選擇適當的分析方法,不能無視觀測變數的類型,做統一的處理。對於由連續變數和非連續變數所組成的混合變數,研究者建議使用Tobit模型;分類順序變數則應該採用最大似然法(Maximum likelihood)或加權最小二乘法(Weighted Least Squares)。為了克服這種依賴性,有些研究者提出了採用其它的一些統計方法,逼迫研究者在進行統計分析時進行更多的思考,如CEFA軟體。
總之,實際研究中,研究者應根據各種情況,選用適合的統計策略,儘量克服各種可能存在的問題,避免人腦受電腦的控制;另外,研究者自身加強統計知識的學習對於因子分析的正確運用也顯得至關重要。