內容簡介
本書是中山大學重點學科建設成果,獲中國礦物岩石地球化學協會大數據與數學地球科學專業委員會推薦,是我國第一部地質科學大數據與機器學習教材。本書是中山大學研究生試用研究型教材,對運用大數據挖掘與機器學習算法解決地球科學問題大有裨益。適合地質科學領域研究生和高年級本科生做教材,也可供科研人員研究時參考。它系統地介紹了地球科學大數據挖掘與機器學習的基本框架與原理,重點分析高維數據的降維、分類與預測、大圖形社區結構識別、無限流數據處理、機器學習及人工智慧地質學的建模過程,對必要的套用場景,使用Python語言給出案例。
作者簡介
周永章,1963年生,廣西博白人。教授、博士生導師,中山大學地球環境與地球資源研究中心主任,廣東省地質過程與礦產資源探查重點實驗室主任,中金嶺南股份有限公司(證券000060.SZ)第七屆董事局獨立董事,廣東省政府決策諮詢顧問委員會委員,廣東省政協常委。
目錄
第1章 緒論
1.1 科學研究第四範式
1.2 地球科學數據
1.3 數據挖掘的基本任務
1.4 數據挖掘建模過程
1.4.1 定義挖掘目標
1.4.2 數據取樣
1.4.3 數據探索
1.4.4 數據預處理
1.4.5 挖掘建模
1.4.6 模型評價
1.5 Python數據挖掘工具
1.51 Python數據挖掘的優勢
1.5.2 Python數據挖掘常用類庫
第2章 數據清洗與預處理
2.1 數據清洗
2.1.1 缺失值處理
2.1.2 異常值處理
2.2 數據集成與融合
2.2.1 實體識別
2.2.2 冗餘屬性識別
2.2.3數據融合
2.3 數據變換
2.3.1 簡單函式變換
2.3.2 規範化
2.3.3 連續屬性離散化
2.3.4 屬性構造
2.3.5 小波變換
2.4 數據規約
2.4.1 屬性規約
2.4.2 數值規約
2.5 離群點檢測
2.5.1 離群點檢測方法
2.5.2 基於模型的離群點檢測方法
2.5.3 基於聚類的離群點檢測方法
2.6 Python主要數據預處理函式
第3章 高維數據的降維
3.1 相關分析
3.2 哈希算法
3.3 主成分分析
3.4 Python主要降維算法
第4章 分類與預測
4.1 回歸分析
4.2 聚類分析
4.3 判別分析
4.4 關聯規則算法
4.5 推薦系統算法
4.6 Python算法的實現
第5章 圖形數據處理
5.1 圖形數據結構
5.2 數字圖像處理
5.3 圖像模式識別
5.4 大圖形的社區結構識別
5.5 基於圖的拓撲結構相似度的地質文獻與信息檢索
5.6 實現圖形數據處理的算法
第6章 無限流數據與時間序列
6.1無限流數據 與時序模式
6.2 無限流數據特徵提取
6.2.1查詢
6.2.2分位數計算
6.2.3頻繁項計算
6.3時間序列算法
6.3.1 時間序列的預處理
6.3.2 平穩時間序列分析
6.3.3 非平穩時間序列分析
6.4 Python實現的算法
第7章 機器學習與深度學習
7.1 SVM
7.2 決策樹 101
7.3 人工神經網路 108
7.4 深度學習
7.5 遷移學習
7.6 Python算法的實現
第8章 貝葉斯原理與人工智慧地質學
附錄I Python入門
1.1 搭建Python開發平台
1.1.1 所要考慮的問題
1.1.2 基礎平台的搭建
1.2 Python使用入門
1.2.1 運行方式
1.2.2 基本命令
1.2.3 數據結構
1.2.4 庫的導入與添加
1.3 Python數據分析工具
1.3.1 Numpy
1.3.2 Scipy
1.3.3 Matplotlib
1.3.4 Pandas
1.3.5 StatsModels
1.3.6 Scikit-Learn
1.3.7 Keras
1.3.8 Gensim
附錄II TipDM-PB數據挖掘建模平台