內容簡介
本書是一本全面介紹數據挖掘和知識發現技術的專業書籍。系統化地闡述了數據挖掘和知識發現技術的產生、發展、套用和相關概念、原理、算法。對數據挖掘中的主要技術分支,包括關聯規則、分類、聚類、序列、空間以及Web挖掘等進行了理論剖析和算法描述。本書的許多工作是作者們在攻讀博士學位期間的工作總結,一方面,對於相關概念和技術的闡述儘量先從理論分析入手,在此基礎上進行技術歸納。另一方面,為了保證技術的系統性,所有的挖掘模型和算法描述都在統一的技術歸納框架下進行。同時,為了避免抽象算法描述給讀者帶來的理解困難,本書的所有典型算法都通過具體跟蹤執行實例來進一步說明。本書共分8章,各章相對獨立成篇,以利於讀者選擇性學習。在每章後面都設定專門一節來對本章內容和文獻引用情況進行歸納,它不僅可以幫助讀者對相關內容進行整理,而且也起到對本內容相關文獻的注釋性索引功能。第1章是緒論,系統地介紹了數據挖掘產生的商業和技術背景,從不同側面剖析了數據挖掘的概念和套用價值;第2章給出了知識發現的過程分析和套用體系結構設計;第3章對關聯規則挖掘的原理和算法進行全面闡述;第4章給出分類的主要理論和算法描述;第5章討論聚類的常用技術和算法;第6章對時間序列分析技術和序列挖掘算法進行論述;第7章系統地介紹了Web挖掘的主要研究領域和相關技術及算法;第8章是對空間數據挖掘技術和算法的分析和講述。
目錄
第1章緒論
1.1數據挖掘技術的產生與發展
1.2數據挖掘研究的發展趨勢
1.3數據挖掘的概念
1.4數據挖掘技術的分類問題
1.5數據挖掘常用的知識表示模式與方法
1.6不同數據存儲形式下的數據挖掘問題
1.7粗糙集方法及其在數據挖掘中的套用
1.8數據挖掘的套用分析
1.9本章小結和文獻注釋
第2章知識發現過程與套用結構
2.1知識發現的基本過程
2.2資料庫中的知識發現處理過程模型
2.3知識發現軟體或工具發展
2.4知識發現項目的過程化管理
2.5數據挖掘語言介紹
2.6本章小結和文獻注釋
第3章關聯規則挖掘理論和算法
3.1基本概念與解決方法
3.2經典的頻繁項目集生成算法分析
3.3Apriori算法的性能瓶頸問題
3.4Apriori的改進算法
3.5項目集格空間理論的發展
3.6項目序列集格空間和它的操作
3.7基於項目序列集操作的關聯規則挖掘算法
3.8改善關聯規則挖掘質量問題
3.9約束數據挖掘問題
3.10時態約束關聯規則挖掘
3.11關聯規則挖掘中的一些更深入的問題
3.12數量關聯規則挖掘方法
3.13本章小結和文獻注釋
第4章分類方法
4.1分類的基本概念與步驟
4.2基於距離的分類算法
4.3決策樹分類方法
4.4貝葉斯分類
4.5規則歸納
4.6與分類有關的其他問題
4.7本章小結和文獻注釋
第5章聚類方法
第6章時間序列和序列模式挖掘
第7章Web挖掘技術
第8章空間挖掘
參考文獻
前言
數據挖掘經過十幾年的蓬勃發展,產生了豐碩的理論和套用成果。作為一門套用性較強的學科,數據挖掘技術已經滲透到國民經濟的各個領域,引起學術界和產業界的極大關注,取得了廣泛的套用,為各行各業的管理者提供了有價值的決策依據。這些都使我們迫切感覺到要對本書第一版進行大的修訂,補充最新的理論和套用成果,以適應當前學科發展的需要。
本書自第一版出版以來,我們把其作為高年級學生和研究生學習數據挖掘課程的教材,取得了不少的教學經驗,也發現了原書中的個別錯誤以及敘述不清楚的地方。第二版在原書的基礎上,對原稿進行了改正並做了較大的更新,對內容進行了重新組織和整理,對數據挖掘中新出現的關鍵技術進行了介紹,詳細描述了部分典型新算法;並根據作者近年來的研究成果增添了數據挖掘的套用章節,對數據挖掘的套用成果進行了論述;同時,對數據挖掘的最新進展進行了介紹和概括總結。這些有助於讀者系統學習數據挖掘理論、技術和方法,通過套用實例的介紹能夠給讀者更加深刻的認識。
我們希望本書第二版的出版,不僅給學習數據挖掘課程的高年級學生和研究生提供一本內容比較全面的教材,而且也為開發數據挖掘相關係統的高級軟體開發人員和從事該項技術的各個領域的科技工作者提供一本可讀性較好的參考書,有助於進一步推動我國的數據挖掘研究與套用的深入開展。
本書的編寫得到了中國工程院李德毅院士的關注和指導,作者在此表示衷心的感謝。青島大學的隋毅、龐傳軍、紀俊、柯爽、楊坤等研究生也為本書的完成做了大量的工作,在此,一併表示衷心的感謝。
在數據挖掘蓬勃發展的今天,該項技術涉及了很多學科領域,由於我們的理論水平和實踐經驗都具有局限性,本書還存在不少不足之處,敬請讀者在閱讀本書時能夠給我們提出寶貴建議,並對相關內容進行批評指正。
精彩書摘
第1章 導論
1.1 數據挖掘的社會需求
一切新事物的產生都是由需求驅動。讓計算機能夠自動、智慧型地分析資料庫中的大量數據以獲取信息是推動挖掘型工具產生並發展的強大動力。從生產成本的角度看,公司的人工費用在不斷提升,產品與服務的價格持續下降,激烈的市場競爭迫使決策者想辦法降低成本及擴大產品與服務的銷售量來提高公司的競爭力。從計算機套用角度看,無論硬體與網路性能的提高,還是軟體技術與功能的提高,都要求軟體從單純的管理功能向綜合的分析功能轉變。從數據管理角度看,歷史數據是一筆寶貴的財富,而且這些數據正以幾何級數或指數方式增長。從軟體技術發展方向看,海量數據的智慧型分析對原來各個領域的技術都帶來了極大的挑戰,需要採用綜合性的技術來迎接這些挑戰。
隨著資料庫技術的飛速發展以及人們獲取數據手段的多樣化,人類所擁有的數據急劇增加,隨著大容量、高速度、低價格的存儲設備相繼問世,當今資料庫的容量越來越大,已經達到TB(i),甚至PB的水平,但能夠對這些數據進行有效分析處理的工具卻很少。資料庫系統往往只對已有數據進行存取和簡單操作,人們很難通過這些操作獲取數據隱含的深層語義,而這些描述數據整體特徵和發展趨勢的信息在決策制定過程中具有更加重要的價值和意義,它們可以指導政府、企業決策以獲取更大的社會效益和經濟效益。
盤點有關算法書籍
算法可以理解為有基本運算及規定的運算順序所構成的完整的解題步驟。或者看成按照要求設計好的有限的確切的計算序列,並且這樣的步驟和序列可以解決一類問題。 |