數據預處理管理

數據預處理管理

為了得到高質量的數據挖據效果,在進行數據挖掘之前,必須對原始數據做一定的處理,這種從原始數據到挖掘數據之間,對數據進行的操作叫做數據預處理。它是整個過程中很重要的一個步驟。

發展前提

作為數據挖掘對象,數據來源的原始數據常常包含著噪音、不完整、甚至是不一致的數據。為了得到高質量的數據挖據效果,在進行數據挖掘之前,必須對原始數據做一定的處理,這種從原始數據到挖掘數據之間,對數據進行的操作叫做數據預處理。它是整個數據挖掘過程中很重要的一個步驟。據統計,數據預處理要花費的時間占整個數據挖掘的60%。可是,目前對數據挖掘的研究主要集中於挖掘技術、挖掘算法和挖掘語言等,數據挖掘工具也主要支持數據挖掘模型建立、評價,對數據預處理的支持力度明顯不足。這和數據預處理的重要地位很不相稱。這種現象很大程度阻礙了數據挖掘效率的進一步提高。

概述

數據預處理包含數據清洗、集成、轉換、和消減。

數據清洗

數據清洗是指消除數據中所存在的噪音以及糾正其不一致的問題。所謂噪音數據是指數據中存在著錯誤、或異常(偏離期望值)的數據。而不一致的數據則是指數據內涵出現不一致的情況(如:部門編碼在不同表中出現不同值)。具體的處理內容通常包括:填補遺漏的數據值、平滑有噪音的數據、識別除去異常值、糾正不一致的問題。

數據集成

數據集成就是將來自多個數據源(如:資料庫和檔案等)的數據按照統一的格式結合在一起。並形成比較完整的數據集合,為數據挖掘的順利完成提供數據基礎。通過數據集成,能夠使來自多個數據源的現實世界的實體相互匹配,能夠根據需要適當處理數據冗餘問題(屬性冗餘和記錄行冗餘),檢測和消除數據值衝突等。

數據轉換

數據轉換主要是對數據進行規格化操作,將數據轉換或歸併以構成一個適合數據挖掘的描述形式。

數據消減

數據消減是在不影響(或基本不影響)最終的挖掘結果的情況下,大幅度縮小所挖掘數據的規模,從而大幅度減少後面數據預處理和數據分析所消耗的時間。常見的數據消減法有數據集合、消減維數等。

相關詞條

熱門詞條

聯絡我們