內容提要
本書從高維數據的特性出發,指出了高維數據給數據挖掘帶來的影響以及高維數據挖掘的研究方向。對高維數據挖掘中的相似性搜尋、高維數據聚類、高維數據異常檢測、高維數據頻繁模式發現及電子商務中的協同過濾技術進行了研究,提出了相關的解決方案和相應算法。本書適用於從事數據挖掘和商業智慧型研究的高校教師、研究生、科研院所的科研人員以及從事商業智慧型項目開發的工程技術人員。
編輯推薦
本書是作者近年來從事高維數據挖掘研究成果的總結。全書從高維數據的特性出發,指出了高維數據給數據挖掘帶來的影響以及高維數據挖掘的研究方向。對高維數據挖掘中的相似性搜尋、高維數據聚類、高維數據異常檢測、高維數據頻繁模式發現及電子商務中的協同過濾技術進行了研究,提出了相關的解決方案和相應算法。
目錄
1緒論
1.1研究背景
1.1.1數據挖掘技術的產生和發展
1.1.2高維數據挖掘的概念
1.2高維數據挖掘所遇到的困難
1.2.1高維數據的特點
1.2.2維災(thecurseofdimensionality)
1.2.3高維對數據挖掘的影響
1.3高維數據挖掘的主要研究方向
1.3.1高維空間中的距離函式或相似性度量函式
1.3.2高效的高維數據相似性搜尋算法
1.3.3高效的高維數據挖掘算法
1.3.4在高維空間中對失效的問題的處理
1.3.5選維和降維
1.4術語和符號約定
1.4.1基本術語
1.4.2符號約定
1.5本書結
2高維數據的相似性查詢處理
2.1相似性查詢
2.2維歸約
2.2.1選維
2.2.2降維
2.3高維索引結構
2.4相似性查詢方法
2.4.1RKV算法
2.4.2HS算法
2.4.3其他高維數據的相似性搜尋算法
2.5高維數據相似性搜尋方法的討論
2.5.1維歸約技術的局限
2.5.2高維索引結構在性能上的局限
2.6本章小結
3一種新的高維數據相似性度量函式Hsim()
3.1最近鄰查詢的不穩定性
3.2高維空間中的最近鄰特性
3.3高維空間中的Lk-範數特性的深入探討
3.4高維空間距離函式的重新設計
3.5Hsim()函式的討論
3.5.1Hsim()函式的推廣
3.5.2數據的規範化
3.5.3對高維數據中空值的處理
3.6Hsim()與其他相似性度量方法的比較
3.6.1由距離度量轉換來的相似性度量
3.6.2Cosine度量
3.6.3PearSOEl相關係數
3.6.4Jaccard係數
3.7本章小結
4量化交易數據的相似性搜尋
4.1量化交易數據
4.2量化交易數據的相似性度量
4.3索引結構的建立
4.3.1特徵表
4.3.2特徵劃分
4.4相似性搜尋算法
4.5舉例
4.6性能分析......
……