基本原理
它的基本原理是:為了從總體上把握兩組指標之間的相關關係,分別在兩組變數中提取有代表性的兩個綜合變數U1和V1(分別為兩個變數組中各變數的線性組合),利用這兩個綜合變數之間的相關關係來反映兩組指標之間的整體相關性。
基本思想
典型相關分析方法canonical correlation analysis最早源於荷泰林H,Hotelling 。他所提出的方法於 1936 年在《生物統計》期刊上發表的一篇論文《兩組變式之間的關係》經過多年的套用及發展,逐漸達到完善,在 70 年代臻於成熟。
由於典型相關分析涉及較大量的矩陣計算, 其方法的套用在早期曾受到相當的限制。但隨著當代計算機技術及其軟體的迅速發展,彌補了套用典型相關分析中的困難,因此它的套用開始走向普及化。 典型相關分析是研究兩組變數之間相關關係的一種統計分析方法。
為了研究兩組變數X 1 , X 2 ,…, X p 和 Y1 , Y2 ,…, Yq 之間的相關關係,採用類似於主成分分析的方法,在兩組變數中,分別選取若干有代表性的變數組成有代表性的綜合指標,通過研究這兩組綜合指標之間的相關關係,來代替這兩組變數間的相關關係,這些綜合指標稱為典型變數。
數學描述
設有兩隨機變數組 X X 1 , X 2 ,…, X p ′ 和Y Y1 , Y2 ,…, Yq ′ ,不妨設 p ≤ q 。 對於 X , Y ,不妨設第一組變數的均值和協方差為矩陣為 E X 1 Cov X ∑ 11 第二組變數的均值和協方差為矩陣為 E Y 2 Cov Y ∑ 22 第一組與第二組變數的協方差為矩陣為 Cov X Y ∑ 12 ∑ 21 X 於是,對於矩陣 Z 有 (9—1—1) Y E X 1 均值向量 E Z E (9—1—2) E Y 2 ′ 協方差矩陣 ∑ E Z Z pq × pq E X X ′ ′ E X 1 Y 2 1 1 E Y X ′ ′ E Y 2 Y 2 2 1 ∑ 11 ∑ 12 p× p p×q ∑ 21 ∑ 22 q× p q× q 要研究兩組變數 X 1 , X 2 ,…, X p 和 Y1 , Y2 ,…, Yq 之間的相關關係。
首先分別作兩組變數的線性組合,即 U a1 X 1 a 2 X 2 L a p X p a ′X V b1Y1 b2Y2 L bq Yq b ′Y a a1 a 2 L a p , b b1 b2 L bq 分別為任意非零常係數向量,則 ′ ′可得, Var U a ′ Cov X a a ′ ∑ 11 a Var V b ′ Cov Y b b ′ ∑ 22 b Cov U V a ′ Cov X Y b a ′ ∑ 12 b 則稱 U 與 V 為典型變數,它們之間的相關係數 ρ 稱為典型相關係,即 a ′∑ 12 b ρ Corr U V a ′∑ 11 a b ′∑ 22 b 典型相關分析研究的問題是,如何選取典型變數的最優線性組合。
選取原則是:在所有 使得 U 1 a ′ X 1 1 1線性組合 U 和 V 中,選取典型相關係數為最大的 U 和 V ,即選取 a 和b與 V1 b ′ Y 之間的相關係數達到最大(在所有的 U 和 V 中) 1 2 2 ,然後選取 a 和b 使得U 2 a ′ 2 X 與 V2 b′ 2Y 的相關係數在與 U 1 和 V1 不相關的組合 U 和 V 中最大,繼續下去,直到所有分別與 U 1 U 2 LU p 1 和 V1 V2 LV p 1 ,都不相關的線性組合 U p , p 為止。
V 此時 p等於諸變數 X 與 Y 之間的協方差矩陣的秩。 典型變數 U 1 和 V1 , U 2 和 V2 …… U p 和 V p 是根據它們的相關係數由大列小逐對提取,直到兩組變數之間的相關性被分解完畢為止。
典型變數與典型相關係數的求法
(一)總體典型變數與典型相關係數 由上一節的數學描述我們知道,典型相關分析希望尋求 a 和 b 使得 ρ 達到最大,但是由於隨機變數乘以常數時不改變它們的相關係數,為了防止不必要的結果重複出現,最好的限制是令 Var U 1 和 Var V 1。
於是,我們的問題就轉化為,在約束條件為 Var U 1和 Var V 1 下,尋找非零常數向量 a 和 b 使得相關係數 Corr U V a ′ ∑ 12 b 達到最大。 根據數學分析中條件極值的求法,引入拉格朗日(Lagrange)乘數,問題則轉化為,求 λ ν φ a b a ′ ∑ 12 b 2 a′∑ 11 a 1 2 b′∑ 11 b 1 的極大值點,其中 λ ν 是拉格朗日乘數。
由極值的必要條件,需求 φ 對 a 和 b 的偏導數,並令其等於零,得到的極值條件為: φ a ∑12 b λ ∑11 a 0 φ ∑ a ν ∑ b 0 b 21 22 將分別以 a ′ 和 b ′ 左乘上式,得 a ′ ∑12 b λa ′∑11 a λ b′ ∑ 21 a νb′∑22 b ν又因為 a ′ ∑12 b′ b ′ ∑ 12 a, 故 λ ν a′ ∑ 12 bρ , 說明, λ 的值就是線性組合 U 和 V 之間的相關係數。
因此上述方程可寫成: λ ∑11 a ∑12 b 0 ∑ 21 a λ ∑22 b 0 為求解方程,先以 ∑ ∑12 1 22 左乘以上述第二式,並將第一式代入,得 ∑ 12 ∑ 1 ∑ 21 λ2 ∑11 a 0 22 同理,將 ∑ ∑ 21 1 11 左乘以上述第一式,並將第二式代入,得 ∑ 21 ∑ 111 ∑ 12 λ2 ∑22 b 0 將上邊兩式分別左乘以 ∑ 1 11 和 ∑ 1 22 ,得 ∑ 1 11 ∑ ∑ ∑ 12 1 22 21 λ2 a0 ∑1 ∑ 21 ∑ 11 ∑ 12 λ2 b 0 22 1 令 A ∑ ∑ ∑ ∑ 1 11 12 1 22 21 B ∑ ∑ ∑ ∑ 1 22 21 1 11 12 則得 Aa λ a 2 Bb λ2 b 說明, λ 既是矩陣 A ,同時也是矩陣 B 的特徵值,同時也表明,相應的 a 與 b 分別是 2特徵值 λ 的特徵向量。 2 而且,根據證明,矩陣 A 和 B 的特徵值還具有以下的性質:
(1)矩陣 A 和 B 有相同的非零特徵值,且相等的非零特徵值的數目就等於 p 。
(2)矩陣 A 和 B 的特徵值非負。
(3)矩陣 A 和 B 的全部特徵值均在 0 和 1 之間。 根據前邊,我們知道,λ ν a ′ ∑12 b ρ ,所以 λ 為其典型變數 U 和 V 之間的簡單相關係數。 又由於要求其相關係數達到最大按習慣考慮為正相關,所以取矩陣 A 或 B 的最大特徵值 λ1 的平方根 λ1 。
作為相關係致,同時由特徵值 λ1 所對應的兩個特徵向量 a 2 2 1 1 和b 有: U 1 a ′ 1 X 和 V1 b′ 1Y這就是所要選取的第一對線性組合,也即第一對典型變數,它們在所有的線性組合 U 和 V 中具有有最大的相關係數 λ1 。 若求出矩陣 A 或 B 的 p 個非零特徵根( p 是矩陣 ∑12 的秩,這裡實際上 p q ) ,設為 λ1 ≥ λ2 ≥ L ≥ λ2 ≥ 0 2 2 p 1 2 相應的特徵向量是與 a a L a k 和 b 1 b 2 L b k ,則可得 k 對線性組合: U 1 a11 X 1 a 21 X 2 L a p1 X p 2 2 2 U 2 a1 X 1 a 2 X 2 L a p X p M k k U p a1 X 1 a 2 X 2 L a pk X p 和 V1 b11Y1 b21Y2 L bq1Yq 2 2 2 V2 b1 Y1 b2 Y2 L bq Yq M k k V p b1 Y1 b2 Y2 L bqk Yq 它們的相關係數為 λ1 ≥ λ 2 ≥
套用
典型相關分析的用途很廣。在實際分析問題中,當我們面臨兩組多變數數據,並希望研究兩組變數之間的關係時,就要用到典型相關分析。 例如,為了研究擴張性財政政策實施以後對巨觀經濟發展的影響,就需要考察有關財政政策的一系列指標如財政支出總額的增長率、財政赤字增長率、國債發行額的增長率、稅率降低率等與經濟發展的一系列指標如國內生產總值增長率、就業增長率、物價上漲率等兩組變數之間的相關程度。
又如,為了研究巨觀經濟走勢與股票市場走勢之間的關係,就需要考察各種巨觀經濟指標如經濟成長率、失業率、物價指數、進出口增長率等與各種反映股票市場狀況的指標如股票價格指數、股票市場融資金額等兩組變數之間的相關關係。再如,工廠要考察所使用的原料的質量對所生產的產品的質量的影響,就需要對所生產產品的各種質量指標與所使用的原料的各種質量指標之間的相關關係進行測度。
又如,在分析評估某種經濟投入與產出系統時,研究投入和產出情況之間的聯繫時,投入情況面可以從人力、物力等多個方面反映,產出情況也可以從產值、利稅等方面反映; 再如在分析影響居民消費因素時,我們可以將勞動者報酬、家庭經營收入、轉移性收入等變數構成反映居民收入的變數組,而將食品支出、醫療保健支出、交通和通訊支出等變數構成反映居民支出情況的變數組,然後通過研究兩變數組之間關係來分析影響居民消費因素情況。典型相關分析 先將較多變數轉化為少數幾個典型變數,再通過其間的典型相關係數來綜合描述兩組多元隨機變數之間關係的統計方法。設x是p元隨機變數,y是q元隨機變數,如何描述它們之間的相關程度?當然可逐一計算x的p個分量和y的q個分量之間的相關係數(p×q個), 但這樣既繁瑣又不能反映事物的本質。如果運用典型相關分析,其基本程式是,從兩組變數各自的線性函式中各抽取一個組成一對,它們應是相關係數達到最大值的一對,稱為第1對典型變數,類似地還可以求出第2對、第3對、……,這些成對變數之間互不相關,各對典型變數的相關係數稱為典型相關係數。所得到的典型相關係數的數目不超過原兩組變數中任何一組變數的數目。
典型相關分析有助於綜合地描述兩組變數之間的典型的相關關係。其條件是,兩組變數都是連續變數,其資料都必須服從多元常態分配。
以上幾種多元分析方法各有優點和局限性。每一種方法都有它特定的假設、條件和數據要求,例如正態性、線性和同方差等。因此在套用多元分析方法時,應在研究計畫階段確定理論框架,以決定收集何種數據、怎樣收集和如何分析數據資料。