數據預處理管理:為了得到高質量的數據挖據效果，在進行數據挖掘之前，必須對 -百科知識中文網

發展前提

作為數據挖掘對象，數據來源的原始數據常常包含著噪音、不完整、甚至是不一致的數據。為了得到高質量的數據挖據效果，在進行數據挖掘之前，必須對原始數據做一定的處理，這種從原始數據到挖掘數據之間，對數據進行的操作叫做數據預處理。它是整個數據挖掘過程中很重要的一個步驟。據統計，數據預處理要花費的時間占整個數據挖掘的60%。可是，目前對數據挖掘的研究主要集中於挖掘技術、挖掘算法和挖掘語言等，數據挖掘工具也主要支持數據挖掘模型建立、評價，對數據預處理的支持力度明顯不足。這和數據預處理的重要地位很不相稱。這種現象很大程度阻礙了數據挖掘效率的進一步提高。

概述

數據預處理包含數據清洗、集成、轉換、和消減。

數據清洗

數據清洗是指消除數據中所存在的噪音以及糾正其不一致的問題。所謂噪音數據是指數據中存在著錯誤、或異常（偏離期望值）的數據。而不一致的數據則是指數據內涵出現不一致的情況（如：部門編碼在不同表中出現不同值）。具體的處理內容通常包括：填補遺漏的數據值、平滑有噪音的數據、識別除去異常值、糾正不一致的問題。

數據集成

數據集成就是將來自多個數據源（如：資料庫和檔案等）的數據按照統一的格式結合在一起。並形成比較完整的數據集合，為數據挖掘的順利完成提供數據基礎。通過數據集成，能夠使來自多個數據源的現實世界的實體相互匹配，能夠根據需要適當處理數據冗餘問題（屬性冗餘和記錄行冗餘），檢測和消除數據值衝突等。

數據轉換

數據轉換主要是對數據進行規格化操作，將數據轉換或歸併以構成一個適合數據挖掘的描述形式。

數據消減

數據消減是在不影響（或基本不影響）最終的挖掘結果的情況下，大幅度縮小所挖掘數據的規模，從而大幅度減少後面數據預處理和數據分析所消耗的時間。常見的數據消減法有數據集合、消減維數等。

數據預處理管理

發展前提

概述

數據清洗

數據集成

數據轉換

數據消減

相關詞條

原水預處理

彈性填料富氧爆氣生物預處理技術

數據挖掘與管理實踐

彈性填料富氧曝氣生物預處理技術

多源數據融合和感測器管理

數據挖掘技術

海洋數據

數據學和數據科學

數據融合系統

熱門詞條