數據科學導論:Python語言實現

《數據科學導論:Python語言實現》是2016年8月機械工業出版社出版的圖書,作者是阿爾貝托·博斯凱蒂、盧卡·馬薩羅。

內容簡介

本書首先介紹如何設定基本的數據科學工具箱,然後帶你進入數據改寫和預處理階段,這一部分主要是闡明所有與核心數據科學活動相關的數據分析過程,如數據載入、轉換、修復以及數據探索和處理等。最後,通過主要的機器學習算法、圖形分析技術,以及所有易於表現結果的可視化工具,實現對數據科學的概述。

目錄

譯者序
前言
第1章 新手上路1
1.1 數據科學與Python簡介1
1.2 Python的安裝2
1.2.1 Python 2還是Python 33
1.2.2 分步安裝3
1.2.3 Python核心工具包一瞥4
1.2.4 工具包的安裝7
1.2.5 工具包升級9
1.3 科學計算發行版9
1.3.1 Anaconda10
1.3.2 Enthought Canopy10
1.3.3 PythonXY10
1.3.4 WinPython10
1.4 IPython簡介10
1.4.1 IPython Notebook12
1.4.2 本書使用的數據集和代碼18
1.5 小結25
第2章 數據改寫26

2.1 數據科學過程26
2.2 使用pandas進行數據載入與預處理27
2.2.1 數據快捷載入27
2.2.2 處理問題數據30
2.2.3 處理大數據集32
2.2.4 訪問其他數據格式36
2.2.5 數據預處理37
2.2.6 數據選擇39
2.3 使用分類數據和文本數據41
2.4 使用NumPy進行數據處理49
2.4.1 NumPy中的N維數組49
2.4.2 NumPy ndarray對象基礎50
2.5 創建NumPy數組50
2.5.1 從列表到一維數組50
2.5.2 控制記憶體大小51
2.5.3 異構列表52
2.5.4 從列表到多維數組53
2.5.5 改變數組大小54
2.5.6 利用NumPy函式生成數組56
2.5.7 直接從檔案中獲得數組57
2.5.8 從pandas提取數據57
2.6 NumPy快速操作和計算58
2.6.1 矩陣運算60
2.6.2 NumPy數組切片和索引612.6.3 NumPy數組堆疊63
2.7 小結65
第3章 數據科學流程66
3.1 EDA簡介66
3.2 特徵創建70
3.3 維數約簡72
3.3.1 協方差矩陣72
3.3.2 主成分分析73
3.3.3 一種用於大數據的PCA變型—Randomized PCA76
3.3.4 潛在因素分析77
3.3.5 線性判別分析77
3.3.6 潛在語義分析78
3.3.7 獨立成分分析78
3.3.8 核主成分分析78
3.3.9 受限玻耳茲曼機80
3.4 異常檢測和處理81
3.4.1 單變數異常檢測82
3.4.2 EllipticEnvelope83
3.4.3 OneClassSVM87
3.5 評分函式90
3.5.1 多標號分類90
3.5.2 二值分類92
3.5.3 回歸93
3.6 測試和驗證93
3.7 交叉驗證97
3.7.1 使用交叉驗證疊代器99
3.7.2 採樣和自舉方法100
3.8 超參數最佳化102
3.8.1 建立自定義評分函式104
3.8.2 減少格線搜尋時間106
3.9 特徵選擇108
3.9.1 單變數選擇108
3.9.2 遞歸消除110
3.9.3 穩定性選擇與基於L1的選擇111
3.10 小結112
第4章 機器學習113
4.1 線性和邏輯回歸113
4.2 樸素貝葉斯116
4.3 K近鄰118
4.4 高級非線性算法119
4.4.1 基於SVM的分類算法120
4.4.2 基於SVM的回歸算法122
4.4.3 調整SVM123
4.5 組合策略124
4.5.1 基於隨機樣本的粘合策略125
4.5.2 基於弱組合的分袋策略125
4.5.3 隨機子空間和隨機分片126
4.5.4 模型序列—AdaBoost127
4.5.5 梯度樹提升128
4.5.6 處理大數據129
4.6 自然語言處理一瞥136
4.6.1 詞語分詞136
4.6.2 詞幹提取137
4.6.3 詞性標註137
4.6.4 命名實體識別138
4.6.5 停止詞139
4.6.6 一個完整的數據科學示例—文本分類140
4.7 無監督學習概述141
4.8 小結146
第5章 社會網路分析147
5.1 圖論簡介147
5.2 圖的算法152
5.3 圖的載入、輸出和採樣157
5.4 小結160
第6章 可視化161
6.1 matplotlib基礎介紹161
6.1.1 曲線繪圖162
6.1.2 繪製分塊圖163
6.1.3 散點圖164
6.1.4 直方圖165
6.1.5 柱狀圖166
6.1.6 圖像可視化167
6.2 pandas的幾個圖形示例169
6.2.1 箱線圖與直方圖170
6.2.2 散點圖171
6.2.3 平行坐標173
6.3 高級數據學習表示174
6.3.1 學習曲線174
6.3.2 驗證曲線176
6.3.3 特徵重要性177
6.3.4 GBT部分依賴關係圖179
6.4 小結180

前言

“千里之行,始於足下。”
—老子(公元前604—531年)
數據科學屬於相對較新的知識領域,它需要成功融合線性代數、統計建模、可視化、計算語言學、圖形分析、機器學習、商業智慧型、數據存儲和檢索等眾多學科。

Python程式語言在過去十年已經征服了科學界,它現在是數據科學實踐者不可或缺的工具,也是每一個有抱負的數據科學家的必備工具。Python為數據分析、機器學習和算法問題求解提供了快速、可靠、跨平台、成熟的開發環境。無論之前數據科學套用中阻止你掌握Python的原因是什麼,這些都將通過我們簡單的分步化解和示例導向的方法來解決,我們將幫助你在演示數據集和實際數據集上使用最直接有效的Python工具。

相關詞條

熱門詞條

聯絡我們