內容簡介
近年來,網際網路的快速發展、新套用的不斷出現、網路頻寬的不斷提高和網路數據流的急劇增加給網際網路數據分析研究帶來了技術挑戰,網際網路數據挖掘和分類對於網路計費、流量工程、網路安全等領域具有廣泛套用價值。《網際網路大數據挖掘與分類》主要針對網際網路大數據挖掘與分類問題,系統介紹了作者在網際網路數據分析處理方面的理論及實踐的研究成果,主要介紹兩個網際網路大數據的挖掘和分類平台:基於hadoop集群網路被動測量數據分析平台和基於覆蓋網的主動測量網路故障診斷平台,同時《網際網路大數據挖掘與分類》分別探討了基於這兩個平台的超點抽樣檢測方法、並行長持續時間流檢測方法、面向MapReduce的大流識別方法、基於信息熵靈敏度的異常檢測方法、HTTP流量的頁面關聯。
目錄
1 緒論
1.1 背景知識
1.1.1 研究背景
1.1.2 研究意義
1.2 網路測量技術
1.2.1 網路測量常見對象
1.2.2 網路測量分析的問題
1.2.3 單點測量常用方法
1.2.4 單點網路測量常用工具
1.2.5 分散式網路測量技術
1.3 分類算法
1.3.1 決策樹
1.3.2 貝葉斯分類
1.3.3 支持向量機
1.4 C4.5算法
1.4.1 算法概述
1.4.2 決策樹的分割
1.4.3 決策樹的剪枝
1.4.4 剪枝實例
1.4.5 十折交叉驗證方法
1.4.6 測度子集選擇方法
1.5 數據挖掘方法
1.5.1 聚類方法
1.5.2 k-近鄰算法
1.6 流數據結構
1.6.1 Bitmap
1.6.2 混合Counter
1.6.3 Count-MiSketch
1.6.4 Bloom Filter
1.6.5 Counter Braids
1.6.6 BRICK
1.7 流量測量的評價指標
1.7.1 誤報率和漏報率
1.7.2 相對誤差
1.7.3 相對差
1.7.4 熵
1.8 小結
參考文獻
2 網際網路大數據分析系統
2.1 系統設計
2.1.1 總體設計
2.1.2 數據收集層設計
2.1.3 並行算法層設計
2.1.4 查詢層設計
2.2 測度定義
2.2.1 輸入測度
2.2.2 用戶行為測度
2.2.3 輸出測度
2.3 基於MapReduce測度的計算方法
2.3.1 單點TCP測度
2.3.2 並行TCP測度
2.3.3 流聚合併行方法
2.3.4 用戶行為測度
2.3.5 並行算法最佳化
2.4 系統實現
2.4.1 存儲模組實現
2.4.2 測度計算模組實現
2.4.3 用戶行為分析模組實現
2.4.4 查詢模組實現
2.5 實驗分析
2.5.1 實驗環境
2.5.2 實驗平檯布署
2.5.3 實驗數據集
2.5.4 實驗結果分析
2.5.5 可擴展性分析
2.5.6 性能瓶頸分析
2.6 小結
參考文獻
3 超點數據流檢測方法
3.1 引言
3.2 並行數據流方法
3.2.1 方法描述
3.2.2 相關定義
3.2.3 數據結構
3.2.4 更新歸併過程
3.2.5 連結度估計
3.2.6 超點檢測
3.3 性能分析
3.3.1 存儲開銷
3.3.2 準確性
3.3.3 計算性能
3.4 實驗分析
3.4.1 實驗數據
3.4.2 評價標準
3.4.3 連結度估計
3.4.4 參數評估
3.4.5 算法對比
3.5 小結
參考文獻
4 長持續時間流檢測方法
4.1 引言
4.2 問題定義
4.3 數據結構
4.4 基於共享數據結構的檢測方法
4.4.1 方法描述
4.4.2 方法流程
4.4.3 實驗結果分析
4.5 基於獨立數據結構的檢測方法
4.5.1 方法描述
4.5.2 方法流程
4.5.3 性能分析
4.5.4 實驗結果分析
4.6 小結
參考文獻
5 大流的自適應抽樣識別方法
5.1 引言
5.2 大流識別方法
5.2.1 問題定義
5.2.2 方法描述
5.2.3 自適應抽樣
5.2.4 數據劃分
5.2.5 大流識別
5.3 實驗結果分析
5.3.1 實驗環境
5.3.2 估計精度
5.3.3 負載均衡
5.3.4 可擴展性
5.3.5 數據更新
5.3.6 Reducer數量
5.4 小結
參考文獻
6 流量異常的信息熵檢測方法
6.1 引言
6.1.1 研究背景
6.1.2 研究意義
6.1.3 相關研究
6.1.4 本章內容
6.2 信息熵靈敏度分析
6.2.1 理論分析
6.2.2 實驗分析
6.2.3 分析結論
6.3 流量異常檢測方法
6.3.1 測度定義
6.3.2 基於Kmeans的閾值選擇
6.3.3 正常流量BID學習
6.3.4 驗證方案
6.4 實驗結果分析
6.4.1 實驗環境
6.4.2 攻擊流量獲取
6.4.3 攻擊檢測能力評估
6.4.4 檢測準確性
6.5 小結
參考文獻
7 網頁關聯分析方法
7.1 概述
7.1.1 研究背景
7.1.2 研究意義
7.1.3 相關研究
7.2 網頁關聯概念
7.2.1 定義
7.2.2 問題描述
7.2.3 輸入輸出描述
7.2.4 分類
7.2.5 網頁引用方法
7.3 基於DPI的網頁關聯方法
7.3.1 方法概述
7.3.2 基於HTTP頭信息的引用發現方法
7.3.3 請求網頁父引用提取方法
7.3.4 HTTP網頁解碼算法
7.3.5 基於網頁內容的引用發現算法
7.3.6 父子引用關聯方法
7.4 DPI關聯方法實驗分析
7.4.1 線上採集數據分析
7.4.2 被動測量數據關聯分析
7.5 網頁關聯存在的問題
7.5.1 頁面懸浮廣告
7.5.2 彈出視窗廣告
7.5.3 link href
7.5.4 廣告關聯問題分析
7.6 算法改進對比
7.6.1 測試一
7.6.2 測試二
7.6.3 測試三
7.7 基於DFI的網頁關聯方法
7.7.1 主流識別規則
7.7.2 輔流關聯方法
7.7.3 實驗結果分析
7.8 小結
參考文獻
8 面向網路流的分類方法
8.1 引言
8.1.1 測度定義
8.1.2 背景研究
8.1.3 研究意義
8.2 流特徵選擇方法
8.2.1 特徵選擇方法
8.2.2 混合特徵選擇
8.2.3 實驗結果分析
8.3 代價敏感分類方法
8.3.1 數據重採樣
8.3.2 代價敏感學習
8.3.3 基於Adacost的分類算法
8.3.4 實驗結果分析
8.5 集成學習分類方法
8.5.1 集成學習基本概念
8.5.2 基於均值決策的集成學習方法
8.5.3 基於精度權重的集成學習方法
8.5.4 基於代價敏感的集成學習方法
8.5.5 實驗結果分析
8.6 小結
參考文獻
9 基於覆蓋網監測的故障推理
9.1 研究背景及意義
9.2 基本概念
9.2.1 社區的概念
9.2.2 覆蓋網
9.2.3 chord
9.3 數據處理
9.3.1 集中式處理的問題
9.3.2 負載均衡
9.3.3 症狀數據存取索引
9.3.4 症狀數據預處理
9.4 故障推理算法
9.4.1 客戶端故障判斷算法
9.4.2 現有方法
9.4.3 故障推理算法
9.4.4 算法設計
9.5 系統設計實現
9.5.1 系統設計
9.5.2 實驗工具
9.5.3 實驗環境
9.5.4 實驗結果分析
9.6 小結
參考文獻
彩插