發展前提
作為數據挖掘對象,數據來源的原始數據常常包含著噪音、不完整、甚至是不一致的數據。為了得到高質量的數據挖據效果,在進行數據挖掘之前,必須對原始數據做一定的處理,這種從原始數據到挖掘數據之間,對數據進行的操作叫做數據預處理。它是整個數據挖掘過程中很重要的一個步驟。據統計,數據預處理要花費的時間占整個數據挖掘的60%。可是,目前對數據挖掘的研究主要集中於挖掘技術、挖掘算法和挖掘語言等,數據挖掘工具也主要支持數據挖掘模型建立、評價,對數據預處理的支持力度明顯不足。這和數據預處理的重要地位很不相稱。這種現象很大程度阻礙了數據挖掘效率的進一步提高。
概述
數據預處理包含數據清洗、集成、轉換、和消減。
數據清洗
數據清洗是指消除數據中所存在的噪音以及糾正其不一致的問題。所謂噪音數據是指數據中存在著錯誤、或異常(偏離期望值)的數據。而不一致的數據則是指數據內涵出現不一致的情況(如:部門編碼在不同表中出現不同值)。具體的處理內容通常包括:填補遺漏的數據值、平滑有噪音的數據、識別除去異常值、糾正不一致的問題。
數據集成
數據集成就是將來自多個數據源(如:資料庫和檔案等)的數據按照統一的格式結合在一起。並形成比較完整的數據集合,為數據挖掘的順利完成提供數據基礎。通過數據集成,能夠使來自多個數據源的現實世界的實體相互匹配,能夠根據需要適當處理數據冗餘問題(屬性冗餘和記錄行冗餘),檢測和消除數據值衝突等。
數據轉換
數據轉換主要是對數據進行規格化操作,將數據轉換或歸併以構成一個適合數據挖掘的描述形式。
數據消減
數據消減是在不影響(或基本不影響)最終的挖掘結果的情況下,大幅度縮小所挖掘數據的規模,從而大幅度減少後面數據預處理和數據分析所消耗的時間。常見的數據消減法有數據集合、消減維數等。