[ 收藏 ] [ 繁体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

Python網絡爬蟲從入門到實踐 第2版 唐松 著 程序設計(新)專業
該商品所屬分類:計算機/網絡 -> 計算機/網絡
【市場價】
761-1104
【優惠價】
476-690
【作者】 唐松 
【出版社】機械工業出版社 
【ISBN】9787111626879
【折扣說明】一次購物滿999元台幣免運費+贈品
一次購物滿2000元台幣95折+免運費+贈品
一次購物滿3000元台幣92折+免運費+贈品
一次購物滿4000元台幣88折+免運費+贈品
【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
版本正版全新電子版PDF檔
您已选择: 正版全新
溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
*. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
*. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
*. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
內容介紹



ISBN編號:9787111626879
書名:PYTHON網絡爬蟲從入門到實踐(第2版) PYTHON網絡爬蟲從入門到實踐(第2版)
作者:唐松

代碼:69
開本:16開
是否是套裝:否

出版社名稱:機械工業出版社

    
    
"

Python網絡爬蟲從入門到實踐 第2版

作  者: 唐松 著
size="731x8"
定  價: 69
size="731x8"
出?版?社: 機械工業出版社
size="731x8"
出版日期: 2019年06月01日
size="731x8"
頁  數: 279
size="731x8"
裝  幀: 平裝
size="731x8"
ISBN: 9787111626879
size="731x8"
目錄
●前言
章 網絡爬蟲入門1
1.1 為什麼要學網絡爬蟲2
1.1.1 網絡爬蟲能帶來什麼好處2
1.1.2 能從網絡上爬取什麼數據3
1.1.3 應不應該學爬蟲3
1.2 網絡爬蟲是否合法3
1.2.1 Robots協議4
1.2.2 網絡爬蟲的約束5
1.3 網絡爬蟲的基本議題6
1.3.1 Python爬蟲的流程7
1.3.2 三個流程的技術實現7
第2章 編寫個網絡爬蟲9
2.1 搭建Python平臺10
2.1.1 Python的安裝10
2.1.2 使用pip安裝第三方庫12
2.1.3 使用編輯器Jupyter 編程13
2.1.4 使用編輯器Pycharm編程15
2.2 Python 使用入門18
2.2.1 基本命令18
2.2.2 數據類型19
2.2.3 條件語句和循環語句21
2.2.4 函數23
2.2.5 面向對像編程24
2.2.6 錯誤處理28
2.3 編寫個簡單的爬蟲29
2.3.1 步:獲取頁面29
2.3.2 第二步:提取需要的數據30
2.3.3 第三步:存儲數據32
2.4 Python實踐:基礎鞏固33
2.4.1 Python基礎試題34
2.4.2 參考答案35
2.4.3 自我實踐題38
第3章 靜態網頁抓取39
3.1 安裝Requests40
3.2 獲取響應內容40
3.3 定制Requests41
3.3.1 傳遞URL參數41
3.3.2 定制請求頭42
3.3.3 發送POST請求43
3.3.4 超時44
3.4 Requests爬蟲實踐:TOP250電影數據44
3.4.1 網站分析45
3.4.2 項目實踐45
3.4.3 自我實踐題47
第4章 *態網頁抓取48
4.1 動態抓取的實例49
4.2 解析真實地址抓取50
4.3 通過Selenium模擬瀏覽器抓取55
4.3.1 Selenium的安裝與基本介紹55
4.3.2 Selenium的實踐案例57
4.3.3 Selenium獲取文章的所有評論58
4.3.4 Selenium的不錯操作61
4.4 Selenium爬蟲實踐:深圳短租數據64
4.4.1 網站分析64
4.4.2 項目實踐66
4.4.3 自我實踐題69
第5章 解析網頁70
5.1 使用正則表達式解析網頁71
5.1.1 re.match方法71
5.1.2 re.search方法74
5.1.3 re.findall方法74
5.2 使用BeautifulSoup解析網頁76
5.2.1 BeautifulSoup的安裝76
5.2.2 使用BeautifulSoup獲取博客標題77
5.2.3 BeautifulSoup的其他功能78
5.3 使用lxml解析網頁82
5.3.1 lxml的安裝82
5.3.2 使用lxml獲取博客標題82
5.3.3 XPath的選取方法84
5.4 總結85
5.5 BeautifulSoup爬蟲實踐:房屋價格數據86
5.5.1 網站分析86
5.5.2 項目實踐87
5.5.3 自我實踐題89
第6章 數據存儲90
6.1 基本存儲:存儲至TXT或CSV91
6.1.1 把數據存儲至TXT91
6.1.2 把數據存儲至CSV93
6.2 存儲至MySQL數據庫94
6.2.1 安裝MySQL95
6.2.2 MySQL的基本操作99
6.2.3 Python操作MySQL數據庫104
6.3 存儲至MongoDB數據庫106
6.3.1 安裝MongoDB107
6.3.2 MongoDB的基本概念110
6.3.3 Python操作MongoDB數據庫112
6.3.4 RoboMongo的安裝與使用113
6.4 總結115
6.5 MongoDB爬蟲實踐:虎撲論壇116
6.5.1 網站分析116
6.5.2 項目實踐117
6.5.3 自我實踐題123
第7章 Scrapy框架124
7.1 Scrapy是什麼125
7.1.1 Scrapy架構125
7.1.2 Scrapy數據流(Data Flow)126
7.1.3 選擇Scrapy還是Requests+bs4127
7.2 安裝Scrapy128
7.3 通過Scrapy抓取博客128
7.3.1 創建一個Scrapy項目128
7.3.2 獲取博客網頁並保存129
7.3.3 提取博客標題和鏈接數據131
7.3.4 存儲博客標題和鏈接數據133
7.3.5 獲取文章內容134
7.3.6 Scrapy的設置文件136
7.4 Scrapy爬蟲實踐:財經新聞數據137
7.4.1 網站分析137
7.4.2 項目實踐138
7.4.3 自我實踐題141
第8章 提升爬蟲的速度142
8.1 並發和並行,同步和異步143
8.1.1 並發和並行143
8.1.2 同步和異步143
8.2 多線程爬蟲144
8.2.1 簡單的單線程爬蟲145
8.2.2 學習Python多線程145
8.2.3 簡單的多線程爬蟲148
8.2.4 使用Queue的多線程爬蟲150
8.3 多進程爬蟲153
8.3.1 使用multiprocessing的多進程爬蟲153
8.3.2 使用Pool + Queue的多進程爬蟲155
8.4 多協程爬蟲158
8.5 總結160
第9章 反爬蟲問題163
9.1 為什麼會被反爬蟲164
9.2 反爬蟲的方式有哪些164
9.2.1 不返回網頁165
9.2.2 返回非目標網頁165
9.2.3 獲取數據變難166
9.3 如何“反反爬蟲”167
9.3.1 修改請求頭167
9.3.2 修改爬蟲的間隔時間168
9.3.3 使用代理171
9.3.4 更換IP地址172
9.3.5 登錄獲取數據172
9.4 總結172
0章 解決中文亂碼173
10.1 什麼是字符編碼174
10.2 Python的字符編碼176
10.3 解決中文編碼問題179
10.3.1 問題1:獲取網站的中文顯示亂碼179
10.3.2 問題2:非法字符拋出異常180
10.3.3 問題3:網頁使用gzip壓縮181
10.3.4 問題4:讀寫文件的中文亂碼182
10.4 總結184
1章 登錄與驗證碼處理185
11.1 處理登錄表單186
11.1.1 處理登錄表單186
11.1.2 處理cookies,讓網頁記住你的登錄190
11.1.3 完整的登錄代碼193
11.2 驗證碼的處理194
11.2.1 如何使用驗證碼驗證195
11.2.2 人工方法處理驗證碼197
11.2.3 OCR處理驗證碼200
11.3 總結203
2章 服務器采集204
12.1 為什麼使用服務器采集205
12.1.1 大規模爬蟲的需要205
12.1.2 防止IP地址被封殺205
12.2 使用動態IP撥號服務器206
12.2.1 購買撥號服務器206
12.2.2 登錄服務器206
12.2.3 使用Python更換IP208
12.2.4 結合爬蟲和更換IP功能209
12.3 使用Tor代理服務器210
12.3.1 Tor的安裝211
12.3.2 Tor的使用213
3章 分布式爬蟲218
13.1 安裝Redis219
13.2 修改Redis配置222
13.2.1 修改Redis密碼222
13.2.2 讓Redis服務器被遠程訪問222
13.2.3 使用Redis Desktop Manager管理223
13.3 Redis分布式爬蟲實踐223
13.3.1 安裝Redis庫224
13.3.2 加入任務隊列224
13.3.3 讀取任務隊列並圖片225
13.3.4 分布式爬蟲代碼226
13.4 總結228
4章 爬蟲實踐一:維基百科229
14.1 項目描述230
14.1.1 項目目標230
14.1.2 項目描述230
14.1.3 深度優先和廣度優先232
14.2 網站分析233
14.3 項目實施:深度優先的遞歸爬蟲235
14.4 項目進階:廣度優先的多線程爬蟲237
14.5 總結241
5章 爬蟲實踐二:知乎Live242
15.1 項目描述243
15.2 網站分析243
15.3 項目實施245
15.3.1 獲取所有Live245
15.3.2 獲取Live的聽眾248
15.4 總結251
6章 爬蟲實踐三:百度地圖API252
16.1 項目描述253
16.2 獲取API秘鑰254
16.3 項目實施255
16.3.1 獲取所有擁有公園的城市257
16.3.2 獲取所有城市的公園數據258
16.3.3 獲取所有公園的詳細信息262
16.4 總結266
7章 爬蟲實踐四:暢銷書籍267
17.1 項目描述268
17.2 網站分析268
17.3 項目實施270
17.3.1 獲取亞馬遜的圖書銷售榜列表270
17.3.2 獲取所有分類的銷售榜274
17.3.3 獲取圖書的評論276
17.4 總結279
內容虛線

內容簡介

size="789x11"

使用Python編寫網絡爬蟲程序獲取互聯網上的大數據是當前的熱門專題。本書內容包括三部分:基礎部分、進階部分和項目實踐部分。基礎部分(~7章)主要介紹爬蟲的三個步驟——獲取網頁、解析網頁和存儲數據,通過諸多示例的講解,讓讀者從基礎內容開始繫統性地學習爬蟲技術,並在實踐中提升Python爬蟲水平。進階部分(第8~13章)包括多線程的並發和並行爬蟲、分布式爬蟲、更換IP等,幫助讀者進一步提升爬蟲水平。項目實踐部分(4~17章)使用本書介紹的爬蟲技術對幾個真實的網站進行抓取,讓讀者能在讀完本書後根據自己的需求寫出爬蟲程序。
無論你是否有編程基礎,隻要對爬蟲技術感興趣,本書就能帶領你從入門到實戰再到進階,一步步了解爬蟲,很終寫出自己的爬蟲程序。

作者簡介

唐松 著

size="43x26"

唐松,2010年獲全額獎學金人讀香港中文大學商學院,之後獲得康奈爾大學信息科學碩士學位。曾與IBM合作大數據A100計劃,為多個世界500強公司提供數據挖掘服務,並將網絡爬蟲的經驗應用到這些項目中。
2018年以技術大咖入職騰訊公司,現任騰訊數據服務中心數據分析師,分析騰訊的海量數據。
曾經在香港中文大學、香港中文大學(深圳)、西南交通大學、東華大學多家高校進行過網絡爬蟲教學,獲得許多教授、博士生、研究生的一致好評。

精彩內容

    

摘要

 

"
 
網友評論  我們期待著您對此商品發表評論
 
相關商品
在線留言 商品價格為新臺幣
關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
返回頂部