定義
數據挖掘指的是從大量的數據中提取隱含的、事先未知的、並且潛在有用的知識的技術。數據挖掘的廣義觀點:數據挖掘就是從存放在資料庫,數據倉庫或其他信息庫中的大量的數據中“挖掘”有趣知識的過程。它是計算機技術研究中的一個很有套用價值的新領域,融合了資料庫、人工智慧、機器學習、統計學等多個領域的理論和技術,已成為國際上資料庫和信息決策領域中最前沿的研究方向之一,引起了學術界和工業界的廣泛關注。
特點
高維數據挖掘是基於高維度的一種數據挖掘,它和傳統的數據挖掘最主要的區別在於它的高維度。高維數據挖掘已成為數據挖掘的重點和難點。隨著技術的進步使得數據收集變得越來越容易,導致資料庫規模越來越大、複雜性越來越高,如各種類型的貿易交易數據、Web 文檔、基因表達數據、文檔詞頻數據、用戶評分數據、WEB使用數據及多媒體數據等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。
由於高維數據存在的普遍性,使得對高維數據挖掘的研究有著非常重要的意義。但由於“維災”的影響,也使得高維數據挖掘變得異常地困難,必須採用一些特殊的手段進行處理。 隨著數據維數的升高,高維索引結構的性能迅速下降,在低維空間中,我們經常採用歐式距離作為數據之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復存在,這就給高維數據挖掘帶來了很嚴峻的考驗,一方面引起基於索引結構的數據挖掘算法的性能下降,另一方面很多基於全空間距離函式的挖掘方法也會失效。解決的方法可以有以下幾種:可以通過降維將數據從高維降到低維,然後用低維數據的處理辦法進行處理;對算法效率下降問題可以通過設計更為有效的索引結構、採用增量算法及並行算法等來提高算法的性能;對失效的問題通過重新定義使其獲得新生。