概述
線性鑑別分析的基本思想是將高維的模式樣本投影到最佳鑑別矢量空間,以達到抽取分類信息和壓縮特徵空間維數的效果,投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內距離,即模式在該空間中有最佳的可分離性。因此,它是一種有效的特徵抽取方法。使用這種方法能夠使投影后模式樣本的類間散布矩陣最大,並且同時類內散布矩陣最小。就是說,它能夠保證投影后模式樣本在新的空間中有最小的類內距離和最大的類間距離,即模式在該空間中有最佳的可分離性。
LDA假設以及符號
假設對於一個 空間有m個樣本分別為: ,即每個x是一個n行的矩陣,其中 表示屬於i類的樣本個數,假設有一個有C個類,則 。
.....................類間離散度矩陣
.....................類內離散度矩陣
.....................屬於i類的樣本個數
.....................第i個樣本
......................所有樣本的均值
.....................類i的樣本均值
公式推導
根據符號說明可得類i的樣本均值為:
同理我們也可以得到總體樣本均值:
根據類間離散度矩陣和類內離散度矩陣定義,可以得到如下式子:
當然還有另一中類間的離散度矩陣表達方式:
其中是指i類樣本的先驗機率,即樣本中屬於i類的機率,把P(i)代入第二組式子中,我們可以發現第一組式子只是比第二組式子都少乘了1/m,我們將在稍後進行討論,其實對於乘不乘該1/m,對於算法本身並沒有影響,我們分析一下算法的思想,
我們可以知道矩陣的實際意義是一個協方差矩陣,這個矩陣所刻畫的是該類與樣本總體之間的關係,其中該矩陣對角線上的函式所代表的是該類相對樣本總體的方差(即分散度),而非對角線上的元素所代表是該類樣本總體均值的協方差(即該類和總體樣本的相關聯度或稱冗餘度),所以根據公式(3)可知(3)式即把所有樣本中各個樣本根據自己所屬的類計算出樣本與總體的協方差矩陣的總和,這從巨觀上描述了所有類和總體之間的離散冗餘程度。同理可以的得出(4)式中為分類內各個樣本和所屬類之間的協方差矩陣之和,它所刻畫的是從總體來看類內各個樣本與類之間(這裡所刻畫的類特性是由是類內各個樣本的平均值矩陣構成)離散度,其實從中可以看出不管是類內的樣本期望矩陣還是總體樣本期望矩陣,它們都只是充當一個媒介作用,不管是類內還是類間離散度矩陣都是從巨觀上刻畫出類與類之間的樣本的離散度和類內樣本和樣本之間的離散度。
LDA做為一個分類的算法,我們當然希望它所分的類之間耦合度低,類內的聚合度高,即類內離散度矩陣的中的數值要小,而類間離散度矩陣中的數值要大,這樣的分類的效果才好。
這裡我們引入Fisher鑑別準則表達式: