維數約簡

維數約簡:Dimen 維數約簡又稱為降維,是機器學習的一種必要手段。 維空間的,通過特徵提取或者特徵選擇的方法,將原空間的維數降至m維,要求n

定義

維數約簡:Dimensionality reduction
維數約簡又稱為降維,是機器學習的一種必要手段。若資料庫X是屬於n維空間的,通過特徵提取或者特徵選擇的方法,將原空間的維數降至m維,要求n遠大於m,滿足:m維空間的特性能反映原空間數據的特徵,這個過程稱之為維數約簡。

意義

維數約簡是相對於維數災難或者說是高維數據來提出的,很明顯,其意義就是降低原來的維數,並保證原資料庫的完整性,在約簡後的空間中執行後續程式將大大減少運算量,提高數據挖掘效率,且挖掘出來的結果與原有數據集所獲得結果基本一致。更廣泛的說就是防止了維數災難的發生。

提出背景

在科學研究中,我們常常要對數據進行處理,而這些數據通常位於一個高維空間中,例如當處理一個256*256 的圖像序列時,我們需要將其拉成一個向量,這樣,我們就得到了4096 維的數據,如果直接對這些數據進行處理,會有以下問題:首先,會出現所謂的“維數災難”問題,巨大的計算量將使我們無法忍受;其次,這些數據通常沒有反映出數據的本質特徵,如果直接對他們進行處理,不會得到理想的結果。所以,通常我們需要首先對數據進行維數約簡,然後對約簡後的數據進行處理。當然要保證約簡後的數據特徵能反映甚至更能揭示原數據的本質特徵。
通常,我們進行數據維數約簡主要是基於以下目的:
1、壓縮數據以減少存儲量
2、去除噪聲的影響
3、從數據中提取特徵以便進行分類
4、將數據投影到低維可視空間,以便於看清數據的分布
對付高維數據問題基本的方法就是維數約簡,即將n 維數據約簡成m(M<<N)維數據,並能保持原有數據集的完整性,在m 上進行數據挖掘不僅效率更高,且挖掘出來的結果與原有數據集所獲得結果基本一致。分析現有的數據挖掘模型,用於數據維數約簡的基本策略歸納起來有兩種:一種是從有關變數中消除無關、弱相關和冗餘的維,尋找一個變數子集來構建模型。換句話說就是在所有特徵中選擇最優代表性的特徵,稱為特徵選擇。另一種特徵提取,即通過對原始特徵進行某種操作獲取有意義的投影。也就是把n 個原始變數變換為m 個變數,在m上進行後續操作。

常用維數約簡方法

數據維數約簡的方法可以分為線性維數約簡和非線性維數約簡,而非線性維數約簡又分為基於核函式的方法和基於特徵值的方法。線性維數約簡的方法主要有主成分分析(PCA)、獨立成分分析(ICA)、線性決策分析(LDA)、局部特徵分析(LFA)等等。基於核函式的非線性維數約簡方法有基於核函式的主成分分(KPCA)、基於核函式的獨立成分分析(KICA)、基於核函式的決策分析(KDA)等等。基於特徵值的非線性降維方法有ISOMAP 和LLE。綜合如下:
PCA
LCA
LDA\ Fisher DA
LFA
KPCA
KICA
KDA
ISOMAP
LLE
SVM
智慧型算法
數學變換(DFT DCT)
KLT
SVD
P-NORMS 和內積
MLT(多核學習)
流形學習…… 等等

相關詞條

熱門詞條

聯絡我們