作 者:賀思聰 著
定 價:69
出 版 社:電子工業出版社
出版日期:2019年03月01日
頁 數:244
裝 幀:簡裝
ISBN:9787121355080
以介紹思路為主,通過豐富的案例講解爬取數據的思路,介紹數據分析、可視化的方法,以及如何根據數據分析結果,開發一個應用,為讀者提供一個從采集數據到應用數據的完整視角。
●第1章 基礎知識11.1 什麼是爬蟲11.2 數據獲取渠道21.3 抓包分析工具41.4 爬蟲和反爬蟲的鬥爭51.5 數據處理、分析和可視化201.6 延深閱讀21第2章 基於位置信息的爬蟲Ⅰ232.1 背景及目標232.2 爬蟲原理242.3 數據來源分析262.4 簡單的矩形區域爬取方式382.5 高級區域爬取方式462.6 坐標轉換492.7 存儲數據的方式492.8 數據導入512.9 基本數據分析522.10 地圖可視化562.11 軌跡可視化582.12 總結60第3章 基於位置信息的爬蟲Ⅱ623.1 背景及目標623.2 爬蟲原理623.3 優化方案一713.4 優化方案二753.5 優化方案三823.6 導入數據到數據庫973.7 基本數據分析及可視化1003.8 總結117第4章 網站信息爬取及可視化1184.1 背景及目標1184.2 網站API分析1184.3 數據爬取1224.4 數據導入1294.5 數據分析及可視化1334.6 總結173第5章 基於逆向分析小程序的爬蟲1745.1 背景及目標1745.2 數據來源分析1765.3 數據爬取方案1775.4 轉換數據格式1955.5 總結196第6章 從數據到產品1976.1 從一張機票說起1976.2 從價值探索到交付落地2016.3 數據爬取2036.4 爬蟲架構設計2036.5 發現數據的價值2116.6 創新的不確定性2236.7 產品設計2266.8 產品交付2356.9 總結236
本書從多個數據項目實例出發,介紹爬蟲、反爬蟲的各種案例,使讀者了解到數據抓取和分析的完整過程。書中案例的難度由淺入深,以作者原創的代碼為主,不借助現成的框架,強調在數據采集過程中的發散思維,總結攻克反爬蟲的思維模式,實現以低成本的方式得到想要的數據的願望。很後,用一個“愛飛狗”的例子,為讀者展示如何從0到1地開發一個大數據產品。
賀思聰 著
賀思聰,畢業於電子科技大學,在ThoughtWorks任不錯咨詢師,擔任海外交付團隊技術負責人、架構師。
具有十餘年產品研發經驗,涉及澳洲礦業相關數字產品研發、保險業網站技術架構、光網絡設備軟件研發、醫療AR/VR、機械控制、加工仿真模擬等領域。
精通大規模重構實踐、測試驅動開發,熟悉微服務架構及架構實踐,熟悉敏捷項目開發管理流程和相關實踐,具有豐富的敏捷團隊管理經驗。
"前 言智能設備(如智能手環、百度音箱、掃地機器人等)的普及使收集個人數據變得非常容易。機器性能的提高使得分析、使用數據變得更加自動化。大量的數據結合強大的計算性能使數據從量變到質變的過程極短,我們的導航早已不再是傻傻地按照既有的策略規劃行駛路線,而是一直在向“老司機”學習,不斷更新算法,從而帶來更精準的預測。在這個時代,數據就是新一代的資源。我們的身邊充滿了數據流。我們既是數據流的生產者,也是數據流的消費者。對個人而言,如果我們能夠合理地識別、收集、分析、利用這些數據,就能夠在我們做決策時給出一些新的想法。例如,在GitHub上一個非常有效的比特幣高頻交易的源代碼,其作者在2016年年底到2017年1月這段時期內,用6的初始資金賺到了。他所利用的就是對比特幣這種新交易手段的交易數據的洞察,利用機器自動收集分析行情並進行自動化交易。為了解決“什麼時候買機票等