海量數據挖掘技術研究

《海量數據挖掘技術研究》,是劉君強編著,浙江工商大學出版社出版的書籍。

基本信息

作 者:劉君強 著 叢 書 名:出 版 社:浙江工商大學出版社ISBN:9787811402582 出版時間:

2010-12-01 版 次:1 頁 數:176 裝 幀:平裝 開 本:16開 所屬分類:圖書 > 計算機與網際網路 > 資料庫

內容簡介

隨著信息技術特別是網路技術的飛速發展,人們收集、存貯、傳輸數據的能力不斷提高。數據出現了爆炸性增長,與此形成鮮明對比的是:對決策有價值的知識卻非常匱乏。知識發現與數據挖掘技術正是在這一背景下誕生的一門新學科。數據挖掘要在實際套用中發揮作用,高性能挖掘算法和數據挖掘軟體平台是重要的技術基礎。本書以數據挖掘最基本問題、頻繁模式與關聯規則挖掘為切入點,研究高時間效率、高空間可伸縮性的挖掘算法和分布,異質、海量數據的協同挖掘軟體模型,並探討了數據挖掘過程中的隱私保護問題。
本書首先發現了基於樹表示形式的虛擬投影方法,用於按深度優先挖掘密集型數據集;提出了稀疏型數據集表示形式及非過濾投影方法;進_步提出了基於伺機投影的思想,設計並實現了基於伺機投影的全新算法OpportuneProject,對比實驗表明,該算法挖掘各種規模與特性資料庫的效率與可伸縮性都是最佳的。
由於其內在的計算複雜性,挖掘密集型數據的頻繁模式完全集非常困難,解決辦法是挖掘頻繁模式的閉合集或最大集。本書提出了一種組織閉合模式集的複合型頻繁模式樹,支持搜尋空間的高效剪裁,有效地平衡了樹生成與樹剪裁的代價,實現了閉合模式集挖掘算法CROP,其效率與可伸縮性大大優於CHARM等算法。在此基礎上,本書提出了閉合性剪裁和一般性剪裁相結合,並能適時前窺的最大模式挖掘算法MOP,大大優於MaxMiner和MAFIA等算法。
本書進一步提出了逆字典樹剪裁、層次標記等新技術,以及根據信息熵自動生成與人機互動相結合來確定數值型與類別型屬性概念層次的新方法,不僅支持逐層挖掘,而且能進行跨層挖掘,並實現了多支持率剪裁,將所提出的挖掘頻繁模式完全集、閉合集的新算法推廣到無冗餘關聯規則、多維多層多數據類型關聯規則、多支持率分類規則的挖掘問題。
本書在所取得的數據挖掘算法研究成果基礎上,對數據挖掘軟體模型作了深入研究。首先提出了數據挖掘作業描述語言MDL和挖掘任務模型腳本語言,設計並實現了一個集成數據倉庫管理功能、挖掘引擎具有一定智慧型、體系結構可擴展的數據挖掘工具。
本書在研究分散式問題求解技術和分析移動型智慧型代理技術的基礎上,提出了從網路海量數據中發現有用知識的協同挖掘模型。首先定義了黑板和知識源的描述語言以及知識交換格式,設計和實現了支持網際網路上分散式問題求解的黑板系統,提出了分散式網路海量數據挖掘系統DistributedMiner。接著在分析移動式智慧型代理技術的基礎上,設計了一種移動式智慧型代理伺服器,通過重構基礎結構,提出了移動式網路海量數據挖掘系統模型MobileMiner。
最後,本書研究了挖掘事務型數據過程中的隱私保護問題。由於事務型數據的極度稀疏性,任何單一技術難以有效發揮作用,或是導致過高的信息損失,或是處理結果難以解釋,或是技術自身性能有缺陷。本書提出了集成概化技術與消隱技術來降低信息損失。然而,從技術上講,集成並非易事。本書提出了一種新穎的方法來解決效率與可伸縮性的問題。採用此方法處理過的數據能夠套用標準的數據挖掘工具進行分析。

作者簡介

劉君強,男,教授,浙江省杭州市人。畢業於加拿大Simon Fraser大學獲哲學博士學位,浙江大學獲工學博士學位和管理學碩士學位,北京大學獲理學學士學位。以第一作者在ACM SIGKDD、IEEE ICDE、IEEE ICDM、PAKDD、《電子學報》、《計算機學報》、《軟體學報》、《計算機研究與發展》、《中國圖形圖象學報》、《系統工程理論與實踐》等發表多篇論文,承擔省部級研究課題多項。研究興趣涉及數據挖掘、網路信息安全、隱私保護、管理信息系統、軟體工程。

目錄

前言
摘要
ABSTRACT
第一章 概論
第一節 數據挖掘技術的興起
第二節 數據挖掘的主要問題
一、數據挖掘任務與知識類型
二、數據挖掘的過程
三、數據挖掘的對象
四、數據挖掘的套用
五、數據挖掘面臨的挑戰
第三節 本書的工作
第四節 本書的結構
第二章 數據挖掘技術綜述
第一節 頻繁模式與關聯規則挖掘
一、單層單維布爾型關聯規則挖掘與APRIORI算法
二、對Apriori算法的改進
三、頻繁模式與關聯規則挖掘研究的新發展
第二節 閉合模式挖掘與A-Close算法
一、閉合模式挖掘與A-Close算法
二、其他閉合模式挖掘算法
第三節 最大模式挖掘與pincer-Search算法
一、最大模式挖掘與Pincer-Search算法
二、其他最大模式挖掘算法
第四節 多層多維關聯規則挖掘
一、多層關聯規則挖掘問題
二、多維關聯規則挖掘問題
第五節 對關聯規則挖掘的其他擴展
一、順序模式挖掘
二、基於約束的關聯規則挖掘
三、並行挖掘問題
四、複雜檢索問題
五、關聯規則與相關性
六、其他問題
第六節 數據挖掘軟體系統
第七節 保護隱私的數據挖掘技術
一、全局概化技術
二、全消隱技術
三、局部概化技術
四、頻寬矩陣方法
五、其他相關工作
第八節 數據挖掘技術的套用
一、數據挖掘的套用領域
二、企業行銷套用數據挖掘技術
第三章 伺機投影策略的挖掘算法
第一節 引言
第二節 問題的描述
第三節 頻繁模式樹的構造
第四節 模式支持集的表示與投影
一、稀疏型PTS的基於數組表示及其投影
二、密集型PTS的基於樹表示及虛擬投影
第五節 伺機投影策略與OpponuneProject算法
一、伺機投影的啟發式原則
二、估計TVLA和TTF的大小
三、OpponuneProject算法
第六節 性能評價
一、數據集及其特性
二、基本實驗結果
三、可伸縮性試驗
第七節 小結
第四章 閉合模式與最大模式挖掘
第一節 引言
第二節 問題的描述
第三節 複合型頻繁模式樹及其生成
一、複合型頻繁模式樹CFIST
二、CFIST結點的合併
三、CFIST的生成算法
第四節 CFIST的剪裁與包含關係的檢查
一、高效的CFIST局部剪裁
二、分枝包容關係的快速檢查
三、快速雜湊法
第五節 CROP:挖掘閉合模式的高性能算法
一、平衡CFIST生成與剪裁效率
二、CROP算法
第六節 CROP性能測評
一、CROP與CHARM效率對比
二、CROP與CLOSET效率對比
三、CROP與MAFIA效率對比
四、可伸縮性實驗
第七節 挖掘最大頻繁模式的新算法MOP
一、最大頻繁模式集及其剪裁
二、MOP算法
三、MOP的性能評價
第八節 小結
第五章 多維多層關聯規則、分類規則與空間關聯規則
第一節 關聯規則與無冗餘關聯規則
第二節 多層頻繁模式挖掘
一、問題的描述
二、逆字典樹與多層頻繁模式
三、層次標記技術與模式支持集
四、高性能多層頻繁模式挖掘算法
五、性能測評
第三節 多維多層多數據類型關聯規則挖掘
一、多維多層多數據類型關聯規則挖掘問題
二、MDML-PP算法
三、性能測評
第四節 挖掘多支持率分類規則
一、分類規則挖掘與TTF擴展
二、多支持率剪裁
三、分類規則及其單階段挖掘算法
四、對比實驗
第五節 空間關聯規則的挖掘
一、空間關聯規則
二、兩階段挖掘策略
三、基於輔存分而治之的方法
第六節 提高挖掘算法可伸縮性的技術
一、海量數據挖掘策略
二、緩衝管理技術
三、挖掘算法改進及其性能分析
第七節 小結
第六章 智慧型型數據挖掘工具設計與實現
第一節 引言
第二節 數據倉庫及其管理
一、數據倉庫模型與OLAP
二、數據倉庫的框架描述
三、數據倉庫管理器
第三節 數據挖掘任務的描述、管理及執行機制
一、數據挖掘作業Job的描述
二、挖掘任務模型Scenario的定義
三、挖掘任務模型的管理與執行
第四節 智慧型型數據挖掘引擎
一、算法描述庫與算法模組
二、知識庫與引擎管理器
第五節 SmartMiner體系結構
第六節 關鍵技術與SmartMiner原型實現
第七節 小結
第七章 網路海量數據協同挖掘
第一節 引言
第二節 分散式黑板控制
一、問題求解的黑板系統
二、分散式問題求解與黑板控制
第三節 形式化描述語言
一、黑板的描述
二、知識源的描述
三、知識交換格式
第四節 實現分散式黑板控制的一般智慧型代理
一、智慧型代理GA的結構設計
二、智慧型代理軟體DBC-MA的實現
第五節 分散式數據挖掘系統DistributedMiner
一、分散式知識發現功能
二、DistributedMiner的黑板設計
三、挖掘平台體系結構
四、DistributedMiner的實現與套用
第六節 從分布計算到移動計算
一、什麼是智慧型代理
二、智慧型代理的特徵
三、移動型智慧型代理
四、典型mobile agent系統
第七節 移動式數據挖掘系統模型
一、移動型智慧型代理伺服器
二、DBC-MA變型
三、MobileMiner工作流程
第八節 小結
第八章 挖掘事務型數據過程中的隱私保護
第一節 引言
第二節 隱私保護與匿名化模型
第三節 集成概化與消隱技術的基本方法
一、割集柵格的自頂向下貪婪法搜尋
二、為割集尋找一個好的消隱方案
三、算法描述
第四節 解決效率與可伸縮性瓶頸的關鍵技術
一、最小隱私威
二、多輪次求解策略
第五節 信息損失與性能的實驗評估
一、信息損失評估
二、效率評估
三、可伸縮性評估
第六節 小結
參考文獻
後記

相關詞條

熱門詞條

聯絡我們