概念解析
知識發現(Knowledge Discovery in Database, KDD),是所謂"數據挖掘"的一種更廣義的說法,即從各種媒體表示的信息中,根據不同的需求獲得知識。知識發現的目的是向使用者禁止原始數據的繁瑣細節,從原始數據中提煉出有意義的、簡潔的知識,直接向使用者報告。基於資料庫的知識發現(KDD)和數據挖掘還存在著混淆,通常這兩個術語替換使用。KDD表示將低層數據轉換為高層知識的整個過程。可以將KDD簡單定義為:KDD是確定數據中有效的、新穎的、潛在有用的、基本可理解的模式的特定過程。而數據挖掘可認為是觀察數據中模式或模型的抽取,這是對數據挖掘的一般解釋。雖然數據挖掘是知識發現過程的核心,但它通常僅占KDD的一部分(大約是15% 到25%) 。因此數據挖掘僅僅是整個KDD過程的一個步驟,對於到底有多少步以及哪一步必須包括在KDD過程中沒有確切的定義。然而,通用的過程應該接收原始數據輸入,選擇重要的數據項,縮減、預處理和濃縮數據組,將數據轉換為合適的格式,從數據中找到模式,評價解釋發現結果。
基本任務
數據分類
分類是數據挖掘研究的重要分支之一,是一種有效的數據分析方法。分類的目標是通過分析訓練數據集,構造一個分類模型(即分類器),該模型能夠把資料庫中的數據記錄映射到一個給定的類別,從而可以l立用於數據預測。
數據聚類
當要分析的數據缺乏必要的描述信息,或者根本就無法組織成任何分類模式時,利用聚類函式把一組個體按照相似性歸成若干類,這樣就可以自動找到類。聚類和分類類似,都是將數據進行分組。但與分類不同的是,聚類中的組不是預先定義的,而是根據實際數據的特徵按照數據之間的相似性來定義的。
衰退和預報
這是一種特殊類型的分類,可以看作是根據過去和當前的數據預測未來的數據狀態。通過對用衰減統計技術建模的數字值的預測,學習一種(線性或非線性)功能將數據項映射為一個數字預測變數。
關聯和相關性
是指發現大規模數據集中項集之間有趣的關聯或相關關係。關聯規則是指通過對資料庫中的數據進行分析,從某一數據對象的信息來推斷另一數據對象的信息,尋找出重複出現機率很高的知識模式,常用一個帶有置信度因子的參數來描述這種不確定的關係。
順序發現
通常指確定數據組中的順序模式。當數據的特定類型的關係已被發現時,這些模式同關聯和相關性相似。但對關係基於時間序列的數據組,順序發現和關聯就不同了。概括總結:順序發現是將數據映射為有關數據組的簡練描述的子集或映射為資料庫中一組特定用戶數據的高度概括的數據。
描述和辨別
是指發現一組特徵規則,其中的每一條都是或者顯示數據組的特徵或者從對比類中區別試驗類的概念的命題。
時間序列分析
其任務是發現屬性值的發展趨向,如從股票價格指數的金融數據、客戶數據和醫學數據等。它是用來搜尋相似模式以發現和預測特定模式的風險、因果關係和趨勢。
知識類型
1)廣義型知識(Generalization)。
是根據數據的微觀特性發現其表征的、帶有普遍性的、高層次概念的、中觀或巨觀的知識。
2)分類型知識(Classification&Clustering)。
反映同類事物共同性質的特徵型知識和不同事物之間差異型特徵知識。用於反映數據的匯聚模式或根據對象的屬性區分其所屬類別。
3)關聯型知識(Association)。
是反映一個事件和其他事件之間依賴或關聯的知識,又稱依賴(Dependency)關係。這類知識可用於資料庫中的歸一化,查詢最佳化等。
4)預測型知識(Prediction)。
通過時間序列型數據,由歷史的和當前的數據去預測未來的情況。它實際上是一種以時間為關鍵屬性的關聯知識。
5)偏差型知識(Deviation)。
通過分析標準類以外的特例、數據聚類外的離群值、實際觀測值和系統預測值間的顯著差別,對差異和極端特例進行描述。
技術運用
概述
知識發現已經出現了許多知識發現技術,分類方法也有很多種,按被挖掘對象分有基於關係資料庫、多媒體資料庫;按挖掘的方法分有數據驅動型、查詢驅動型和互動型;按知識類型分有關聯規則、特徵挖掘、分類、聚類、總結知識、趨勢分析、偏差分析、文本採掘。知識發現技術可分為兩類:基於算法的方法和基於可視化的方法 。大多數基於算法的方法是在人工智慧、信息檢索、資料庫、統計學、模糊集和粗糙集理論等領域中發展來的。
典型技術
典型的基於算法的知識發現技術包括:或然性和最大可能性估計的貝葉斯理論 、衰退分析、最 近鄰、決策樹、K一方法聚類、關聯規則挖掘 、Web和搜尋引擎、數據倉庫和在線上分析處理(On—line Analytical Processing,OLAP) 、神經網路、遺傳算法、模糊分類和聚類、粗糙分類和規則歸納等。這些技術都很成熟,並且在相關書籍文章上都有詳細介紹。這裡介紹一種基於可視化的方法。
創新技術
基於可視化方法是在圖形學、科學可視化和信息可視化等領域發展起來的,包括:
①幾何投射技術。是指通過使用基本的組成分析、因素分析、多維度縮放比例來發現多維數據集的有趣投影。
②基於圖示技術。是指將每個多維數據項映射為圖形、色彩或其他圖示來改進對數據和模式的表達。
③面向像素的技術。其中每個屬性只由一個有色像素表示,或者屬性取值範圍映射為一個固定的彩色圖。④ 層次技術。指細分多維空間,並用層次方式給出子空間。
⑤基於圖表技術。是指通過使用查詢語言和抽取技術以圖表形式有效給出數據集。
⑥ 混合技術。是指將上述兩種或多種技術合併到一起的技術。
操作步驟
知識發現過程的多種描述.它們只是在組織和表達方式上有所不同,在內容上並沒有非常本質的區別。知識發現過程包括以下步驟:
1.問題的理解和定義:數據挖掘人員與領域專家合作.對問題進行深入的分析.以確定可能的解決途徑和對學習結果的評測方法。
2.相關數據收集和提取:根據問題的定義收集有關的數據。在數據提取過程中,可以利用資料庫的查詢功能以加快數據的提取速度。
3.數據探索和清理:了解資料庫中欄位的含義及其與其他欄位的關係。對提取出的數據進行合法性檢查並清理含有錯誤的數據。
4.數據工程:對數據進行再加工.主要包括選擇相關的屬性子集並剔除冗餘屬性、根據知識發現任務對數據進行採樣以減少學習量以及對數據的表述方式進行轉換以適於學習算法等。為了使數據與任務達到最佳的匹配.這個步驟可能反覆多次。
5.算法選擇:根據數據和所要解決的問題選擇合適的數據挖掘算法.並決定如何在這些數據上使用該算法。
6.運行數據挖掘算法:根據選定的數據挖掘算法對經過處理後的數據進行模式提取。
7.結果的評價:對學習結果的評價依賴於需要解決的問題.由領域專家對發現的模式的新穎性和有效性進行評價。數據挖掘是KDD 過程的一個基本步驟.它包括特定的從資料庫中發現模式的挖掘算法。KDD過程使用數據挖掘算法根據特定的度量方法和閾值從資料庫中提取或識別出知識,這個過程包括對資料庫的預處理、樣本劃分和數據變換。
套用範圍
知識發現事實上知識發現的潛在套用是十分廣闊的.已經遠遠超出了最初的”貨架子工程”。從工業到農業,從天文到地理 從預測預報到決策支持,KDD都發揮著越來越重要的作用。許多計算機軟體開發商都已經推出了其數據挖掘產品,如IBM.Microsoft,SPSS.SGI,SLPInfoware,SAS(ObjectBusiness)等。數據挖掘作為信息處理的高新技術已經在實際套用中嶄露頭角。
1、商業方面。”貨架子工程”是KDD最初成功套用的典範。也正是因為在商業方面的成功套用不斷刺激著KDD的發展,進而拓展到越來越廣闊的套用領域。如今商業.特別是銷售業和服務行業,仍然是KDD套用最廣泛的領域之一。主要套用於銷售預測、庫存需求、零售點選擇、價格分析和銷售模式分析。例如賓館酒店通過對消費特別高和特別低的顧客進行偏離模式分析,可以發現一些有趣的消費模式:AutOm at edW a—ge ring公司使用AdvancedSoftwa reAppI ications的ModeIMaX預測模型.結合地理信息分析開發了Lo—tieryMachineSi[eSelection.以決定在佛羅里達州安裝彩票機的最佳地點。2、農業方面。農業是一個大型複雜系統 中國農業部門數十年來積累了大量的關於土肥、氣象、病蟲害、市場信息等方面的數據、實例和經驗知識.但基本上沒有得到充分利用。通過KDD可以從中發現許多有價值和有規律的知識。如通過對病蟲害資料庫的分析,可以發現病蟲害的影響因素、遷移或蔓延規律等.從而遏制災害的發生、擴展或降低災害損失,通過對國際國內市場信息的挖掘來指導農業生產規劃等。
3、醫學生物方面。醫療保健行業有大量數據需要處理,但這個行業的數據由不同的信息系統管理,數據組織性差 而且類型複雜。如醫療診斷數據,可能包括文本、數值,圖像等,都給套用帶來了一些困難。KDD在醫藥方面主要用於醫療診斷分析、藥物成分一效用分析、新藥研製和藥物生產工藝控制最佳化等。
4、金融保險方面。金融事務需要收集和處理大量數據 對這些數據進行分析,發現其數據模式及特徵.然後可能發現某個客戶.消費群體或組織的金融和商業興趣,並可觀察金融市場的變化趨勢。KDD在金融領域套用廣泛,如金融、股票市場分析和預測,賬戶分類、銀行擔保和信用評估等。
5、通訊、媒體方面。如線路故障的預測、收視率的影響因素、網站入侵檢測、Web信息發現等。
6、國防軍事方面。如軍事情報資料分析.指揮自動化與輔助決策、戰爭風險預測、武器攻擊效果分析、地理數據分析等。
7、其他方面。如工業生產中設備故障診斷.生產工藝最佳化:科學研究中的數據處理與分析.氣象分析和預報等。