分類
流形學習方法是模式識別中的基本方法,分為線性流形學習算法和非線性流形學習算法,非線性流形學習算法包括等距映射(Isomap) ,拉普拉斯特徵映射(Laplacian eigenmaps,LE) ,局部線性嵌入(Locally-linear embedding,LLE) 等。而線性方法則是對非線性方法的線性擴展,如主成分分析(Principal component analysis,PCA),多維尺度變換(Multidimensional scaling,MDS)等。
Isomap
Isomap由麻省理工學院計算機科學與人工智慧實驗室的JoshTenenbaum教授於2000在Science雜誌上提出 。Isomap的主要目標是對於給定的高維流形,欲找到其對應的低維嵌入,使得高維流形上數據點間的近鄰結構在低維嵌入中得以保持。Isomap以MDS(Multidimensional Scaling)為計算工具,創新之處在於計算高維流形上數據點間距離時,不是用傳統的歐式距離,而是採用微分幾何中的測地線距離(或稱為曲線距離),並且找到了一種用實際輸入數據估計其測地線距離的算法(即圖論中的最小路徑逼近測地線距離)。
Isomap的優點在於:
求解過程依賴於線性代數的特徵值和特徵向量問題,保證了結果的穩健性和全局最優性;
能通過剩餘方差判定隱含的低維嵌入的本質維數;
Isomap方法計算過程中只需要確定唯一的一個參數(近鄰參數k或鄰域半徑e)。
1.求解過程依賴於線性代數的特徵值和特徵向量問題,保證了結果的穩健性和全局最優性;
2.能通過剩餘方差判定隱含的低維嵌入的本質維數;
3.Isomap方法計算過程中只需要確定唯一的一個參數(近鄰參數k或鄰域半徑e)。
LE
LE(Laplacian eigenmaps)的基本思想是,用一個無向有權圖描述一個流形,然後通過用圖的嵌入(graph embedding)來找低維表示。簡單來說,就是在保持圖的局部鄰接關係的情況下,將其圖從高維空間中重新畫在一個低維空間中(graph drawing)。
在至今為止的流形學習的典型方法中,LE速度最快,但是效果相對來說不理想。
LE的特點,就是如果出現離群值(outlier)情況下,其魯棒性(robustness)十分理想。這個特點在其他流形學習方法中沒有體現。
LLE
局部線性嵌入相關工作發表在Science (2000) 上 ,是非線性降維的里程碑。
LLE算法可以歸結為三步 :
尋找每個樣本點的k個近鄰點;
由每個樣本點的近鄰點計算出該樣本點的局部重建權值矩陣;
由該樣本點的局部重建權值矩陣和其近鄰點計算出該樣本點的輸出值。具體的算法流程如下圖所示。
1.尋找每個樣本點的k個近鄰點;
2.由每個樣本點的近鄰點計算出該樣本點的局部重建權值矩陣;
3.由該樣本點的局部重建權值矩陣和其近鄰點計算出該樣本點的輸出值。具體的算法流程如下圖所示。
PCA
主成分分析(PCA)被認為是一種特別成功的特徵提取和降維算法。它的原理是,利用對原來的變數進行線性組合而得到新的變數(主成分),這些變數之間的方差最大。因為數據原來的變數之間有可能差距不大,描述的內容差不多,故效率低下。換句話說,我們可能說了很多話,但是卻在講同一件事情。由於方差在數據中描述的變數之間的差距,故方差最大也就意味著新的變數之間有比較大的差距。這樣,就可以以較高的效率描述數據。
MDS
與PCA類似,多維尺度分析(MDS)的目的也是把觀察的數據用較少的維數來表達。然而,MDS利用的是成對樣本間相似性構建合適的低維空間,使得樣本在此空間的距離和在高維空間中的樣本間的相似性儘可能的保持一致。
MDS方法有5個關鍵的要素,分別為主體、客體、準則、準則權重、主體權重。具體定義為:
客體:被評估的對象。可以認為是待分類的幾種類別。
主體:評估客體的單位。就是訓練數據。
準則:根據研究目的自行定義,用以評估客體優劣的標準。
準則權重:主體衡量準則重要性後,對每個準則分別賦予權重值。
主體權重:研究者權衡準則重要性後,對主體賦予權重值。
1.客體:被評估的對象。可以認為是待分類的幾種類別。
2.主體:評估客體的單位。就是訓練數據。
3.準則:根據研究目的自行定義,用以評估客體優劣的標準。
4.準則權重:主體衡量準則重要性後,對每個準則分別賦予權重值。
5.主體權重:研究者權衡準則重要性後,對主體賦予權重值。