從零開始學Python網路爬蟲

從零開始學Python網路爬蟲

《從零開始學Python網路爬蟲》是機械工業出版社2017年出版的圖書,作者:羅攀、 蔣仟

基本信息

作者:羅攀 蔣仟 編著
ISBN(書號):978-7-111-57999-1
出版日期:2017-10
版次:1/1
開本:16
定價:¥59.00

內容簡介

Python是數據分析的首選語言,而網路中的數據和信息很多,如何從中獲取需要的數據和信息呢?最簡單、直接的方法就是用爬蟲技術來解決。本書是一本教初學者學習如何爬取網路數據和信息的入門讀物。書中不僅有Python的相關內容,而且還有數據處理和數據挖掘等方面的內容。本書內容非常實用,講解時穿插了22個爬蟲實戰案例,可以大大提高讀者的實際動手能力。
本書共分12章,核心主題包括Python零基礎語法入門、爬蟲原理和網頁構造、我的第一個爬蟲程式、正則表達式、Lxml庫與Xpath語法、使用API、資料庫存儲、多進程爬蟲、異步載入、表單互動與模擬登錄、Selenium模擬瀏覽器、Scrapy爬蟲框架。此外,書中通過一些典型爬蟲案例,講解了有經緯信息的地圖圖表和詞雲的製作方法,讓讀者體驗數據背後的樂趣。
本書適合爬蟲技術初學者、愛好者及高等院校的相關學生,也適合數據爬蟲工程師作為參考讀物,同時也適合各大Python數據分析的培訓機構作為教材使用

目錄

前言
第1章 Python零基礎語法入門 1
1.1 Python與PyCharm安裝 1
1.1.1 Python安裝(Windows、Mac和Linux) 1
1.1.2 PyCharm安裝 3
1.2 變數和字元串 3
1.2.1 變數 4
1.2.2 字元串的“加法”和“乘法” 4
1.2.3 字元串的切片和索引 5
1.2.4 字元串方法 5
1.3 函式與控制語句 7
1.3.1 函式 7
1.3.2 判斷語句 8
1.3.3 循環語句 8
1.4 Python數據結構 9
1.4.1 列表 9
1.4.2 字典 11
1.4.3 元組和集合 11
1.5 Python檔案操作 11
1.5.1 打開檔案 11
1.5.2 讀寫檔案 12
1.5.3 關閉檔案 13
1.6 Python面向對象 13
1.6.1 定義類 14
1.6.2 實例屬性 14
1.6.3 實例方法 15
1.6.4 類的繼承 16
第2章 爬蟲原理和網頁構造 17
2.1 爬蟲原理 17
2.1.1 網路連線 17
2.1.2 爬蟲原理 18
2.2 網頁構造 21
2.2.1 Chrome瀏覽器的安裝 21
2.2.2 網頁構造 22
2.2.3 查詢網頁信息 23
第3章 我的第一個爬蟲程式 26
3.1 Python第三方庫 26
3.1.1 Python第三方庫的概念 26
3.1.2 Python第三方庫的安裝方法 27
3.1.3 Python第三方庫的使用方法 29
3.2 爬蟲三大庫 30
3.2.1 Requests庫 30
3.2.2 BeautifulSoup庫 32
3.2.3 Lxml庫 36
3.3 綜合案例1——爬取北京地區短租房信息 37
3.3.1 爬蟲思路分析 37
3.3.2 爬蟲代碼及分析 38
3.4 綜合案例2——爬取酷狗TOP500的數據 41
3.4.1 爬蟲思路分析 41
3.4.2 爬蟲代碼及分析 43
第4章 正則表達式 45
4.1 正則表達式常用符號 45
4.1.1 一般字元 45
4.1.2 預定義字元集 46
4.1.3 數量詞 46
4.1.4 邊界匹配 47
4.2 re模組及其方法 48
4.2.1 search()函式 48
4.2.2 sub()函式 49
4.2.3 findall()函式 49
4.2.4 re模組修飾符 51
4.3 綜合案例1——爬取《斗破蒼穹》全文小說 53
4.3.1 爬蟲思路分析 53
4.3.2 爬蟲代碼及分析 55
4.4 綜合案例2——爬取糗事百科網的段子信息 56
4.4.1 爬蟲思路分析 56
4.4.2 爬蟲代碼及分析 58
第5章 Lxml庫與Xpath語法 63
5.1 Lxml庫的安裝與使用方法 63
5.1.1 Lxml庫的安裝(Mac、Linux) 63
5.1.2 Lxml庫的使用 64
5.2 Xpath語法 68
5.2.1 節點關係 68
5.2.2 節點選擇 70
5.2.3 使用技巧 70
5.2.4 性能對比 74
5.3 綜合案例1——爬取豆瓣網圖書TOP250的數據 77
5.3.1 將數據存儲到CSV檔案中 77
5.3.2 爬蟲思路分析 78

5.3.3 爬蟲代碼及分析 80
5.4 綜合案例2——爬取起點中文網小說信息 83
5.4.1 將數據存儲到Excel檔案中 83
5.4.2 爬蟲思路分析 84
5.4.3 爬蟲代碼及分析 86
第6章 使用API 88
6.1 API的使用 88
6.1.1 API概述 88
6.1.2 API使用方法 89
6.1.3 API驗證 91
6.2 解析JSON數據 93
6.2.1 JSON解析庫 93
6.2.2 斯必克API調用 94
6.2.3 百度地圖API調用 96
6.3 綜合案例1——爬取PEXELS圖片 98
6.3.1 圖片爬取方法 98
6.3.2 爬蟲思路分析 99
6.3.3 爬蟲代碼及分析 100
6.4 綜合案例2——爬取糗事百科網的用戶地址信息 102
6.4.1 地圖的繪製 102
6.4.2 爬取思路分析 105
6.4.3 爬蟲代碼及分析 106
第7章 資料庫存儲 109
7.1 MongoDB資料庫 109
7.1.1 NoSQL概述 109
7.1.2 MongoDB的安裝 109
7.1.3 MongoDB的使用 115
7.2 MySQL資料庫 117
7.2.1 關係型資料庫概述 117
7.2.2 MySQL的安裝 117
7.2.3 MySQL的使用 123
7.3 綜合案例1——爬取豆瓣音樂TOP250的數據 126
7.3.1 爬蟲思路分析 126
7.3.2 爬蟲代碼及分析 127
7.4 綜合案例2——爬取豆瓣電影TOP250的數據 132
7.4.1 爬蟲思路分析 132
7.4.2 爬蟲代碼及分析 133
第8章 多進程爬蟲 139
8.1 多執行緒與多進程 139
8.1.1 多執行緒和多進程概述 139
8.1.2 多進程使用方法 140
8.1.3 性能對比 140
8.2 綜合案例1——爬取簡書網熱評文章 143
8.2.1 爬蟲思路分析 143
8.2.2 爬蟲代碼及分析 147
8.3 綜合案例2——爬取轉轉網二手市場商品信息 150
8.3.1 爬蟲思路分析 150
8.3.2 爬蟲代碼及分析 152
第9章 異步載入 159
9.1 異步載入技術與爬蟲方法 159
9.1.1 異步載入技術概述 159
9.1.2 異步載入網頁示例 159
9.1.3 逆向工程 162
9.2 綜合案例1——爬取簡書網用戶動態信息 165
9.2.1 爬蟲思路分析 165
9.2.2 爬蟲代碼及分析 171
9.3 綜合案例2——爬取簡書網7日熱門信息 173
9.3.1 爬蟲思路分析 173
9.3.2 爬蟲代碼及分析 179
第10章 表單互動與模擬登錄 182
10.1 表單互動 182
10.1.1 POST方法 182
10.1.2 查看網頁原始碼提交表單 182
10.1.3 逆向工程提交表單 185
10.2 模擬登錄 187
10.2.1 Cookie概述 187
10.2.2 提交Cookie模擬登錄 187
10.3 綜合案例1——爬取拉勾網招聘信息 188
10.3.1 爬蟲思路分析 188
10.3.2 爬蟲代碼及分析 193
10.4 綜合案例2——爬取新浪微博好友圈信息 195
10.4.1 詞雲製作 195
10.4.2 爬蟲思路分析 202
10.4.3 爬蟲代碼及分析 206
第11章 Selenium模擬瀏覽器 209
11.1 Selenium和PhantomJS 209
11.1.1 Selenium的概念和安裝 209
11.1.2 瀏覽器的選擇和安裝 209
11.2 Selenium和PhantomJS的配合使用 213
11.2.1 模擬瀏覽器操作 213
11.2.2 獲取異步載入數據 215
11.3 綜合案例1——爬取QQ空間好友說說 218
11.3.1 CSV檔案讀取 218
11.3.2 爬蟲思路分析 220
11.3.3 爬蟲代碼及分析 221
11.4 綜合案例2——爬取淘寶商品信息 224
11.4.1 爬蟲思路分析 224
11.4.2 爬蟲代碼及分析 226
第12章 Scrapy爬蟲框架 229
12.1 Scrapy的安裝和使用 229
12.1.1 Scrapy的安裝 229
12.1.2 創建Scrapy項目 233
12.1.3 Scrapy檔案介紹 235
12.1.4 Scrapy爬蟲編寫 237
12.1.5 Scrapy爬蟲運行 239
12.2 綜合案例1——爬取簡書網熱門專題信息 240
12.2.1 爬蟲思路分析 240
12.2.2 爬蟲代碼及分析 244
12.3 綜合案例2——爬取知乎網Python精華話題 246
12.3.1 爬蟲思路分析 246
12.3.2 爬蟲代碼及分析 248
12.4 綜合案例3——爬取簡書網專題收錄文章 250
12.4.1 爬蟲思路分析 251
12.4.2 爬蟲代碼及分析 254
12.5 綜合案例4——爬取簡書網推薦信息 257
12.5.1 爬蟲思路分析 258
12.5.2 爬蟲代碼及分析 260

相關詞條

熱門詞條

聯絡我們