作 者:劉順祥 著
定 價:79.8
出 版 社:清華大學出版社
出版日期:2020年06月01日
頁 數:390
裝 幀:平裝
ISBN:9787302553052
"為滿足用人單位對數據分析和挖掘人員在編程方面的技能要求,本書遵循由淺入深的原則,詳細地介紹了利用Python及其相關工具實現數據分析和挖掘的實用技能。結合Python中成熟的Numpy、Pandas、MatPlotLib、Sklearn、Seaborn、Statsmodels和SciPy模塊,實現數據分析與挖掘中關於數據的清洗、整理、探索、可視化、建模和評估等流程的操作,讓每一位對數據分析和挖掘的從業者或感興趣的讀者都能從中學到所需的內容。詳解十大常用數據挖掘算法及案例實戰線性等
●第1章 數據分析與挖掘概述
1.1 什麼是數據分析和挖掘
1.2 數據分析與挖掘的應用領域
1.2.1 電商領域——發現破壞規則的“害群之馬”
1.2.2 交通出行領域——為打車平臺進行私人訂制
1.2.3 醫療健康領域——找到很好醫療方案
1.3 數據分析與挖掘的區別
1.4 數據挖掘的流程
1.4.1 明確目標
1.4.2 數據搜集
1.4.3 數據清洗
1.4.4 構建模型
1.4.5 模型評估
1.4.6 應用部署
1.5 常用的數據分析與挖掘工具
1.6 本章小結
1.7 課後練習
第2章 從收入的預測分析開始
2.1 下載與安裝Anaconda
2.1.1 基於Windows繫統安裝
2.1.2 基於Mac繫統安裝
2.1.3 基於Linux繫統安裝
2.2 基於Python的案例實戰
2.2.1 數據的預處理
2.2.2 數據的探索性分析
2.2.3 數據建模
2.3 本章小結
2.4 課後練習
第3章 Python基礎與數據抓取
3.1 數據結構及方法
3.1.1 列表
3.1組
3.1.3 字典
3.2 控制流
3.2.1 if分支
3.2.2 for循環
3.2.3 while循環
3.3 字符串處理方法
3.3.1 字符串的常用方法
3.3.2 正則表達式
3.4 自定義函數
3.4.1 自定義函數語法
3.4.2 自定義函數的幾種參數
3.5 一個爬蟲案例
3.6 本章小結
3.7 課後練習
第4章 Python數值計算——numpy的高效技能
4.1 數組的創建與操作
4.1.1 數組的創建
4.1.2素的獲取
4.1.3 數組的常用屬性
4.1.4 數組的形狀處理
4.2 數組的基本運算符
4.2.1 四則運算
4.2.2 比較運算
4.2.3 廣播運算
4.3 常用的數學和統計函數
4.4 線性代數的相關計算
4.4.1 矩陣乘法
4.4.2 diag函數的使用
4.4.3 特征根與特征向量
4.4.線性回歸模型的解
4.4.一次方程組的求解
4.4.6 範數的計算
4.5 偽隨機數的生成
4.6 本章小結
4.7 課後練習
第5章 Python數據處理——展現pandas的強大
5.1 序列與數據框的構造
5.1.1 構造序列
5.1.2 構造數據框
5.2 外部數據的讀取
5.2.1 文本文件的讀取
5.2.2 電子表格的讀取
5.2.3 數據庫數據的讀取
5.3 數據類型轉換及描述統計
5.4 字符與日期數據的處理
5.5 常用的數據清洗方法
5.5.1 重復觀測處理
5.5.2 缺失值處理
5.5.3 異常值處理
5.6 數據子集的獲取
5.7 透視表功能
5.8 表之間的合並與連接
5.9 分組聚合操作
5.10 本章小結
5.11 課後練習
第6章 Python數據可視化——分析報素
6.1 離散型變量的可視化
6.1.1 餅圖——“芝麻信用”失信用戶分布
6.1.2 條形圖——胡潤排行榜
6.2 數值型變量的可視化
6.2.1 直方圖與核密度曲線——展現年齡分布特征
6.2.2 箱線圖——二手房單價分布形態
6.2.3 小提琴圖——客戶消費數據的呈現
6.2.4 折線圖——公眾號每日閱讀趨勢
6.3 關繫型數據的可視化
6.3.1 散點圖——探究鳶尾花花瓣長度與寬度的關繫
6.3.2 氣泡圖——暴露商品的銷售特征
6.3.3 熱力圖——一份簡單的月度日歷
6.4 多個圖形的合並
6.5 本章小結
6.6 課後練習
第7章 線性回歸預測模型
7.線性回歸模型——收入預測
7.線性回歸模型——銷售利潤預測
7.2.1 回歸模型的參數求解
7.2.2 回歸模型的預測
7.3 回歸模型的假設檢驗
7.3.1 模型的顯著性檢驗——F檢驗
7.3.2 回歸繫數的顯著性檢驗——t檢驗
7.4 回歸模型的診斷
7.4.1 正態性檢驗
7.4.2 多重共線性檢驗
7.4.3 線性相關性檢驗
7.4.4 異常值檢驗
7.4.5 獨立性檢驗
7.4.6 方差齊性檢驗
7.5 本章小結
7.6 課後練習
第8章 嶺回歸與LASSO回歸模型
8.1 嶺回歸模型
8.1.1 參數求解
8.1.2 繫數求解的幾何意義
8.2 嶺回歸模型的應用——糖尿病病情預測(1)
8.2.1 可視化方法確定λ值
8.2.2 交叉驗證法確定λ值
8.2.3 模型的預測
8.3 LASSO回歸模型——糖尿病病情預測(2)
8.3.1 參數求解
8.3.2 繫數求解的幾何意義
8.4 LASSO回歸模型的應用
8.4.1 可視化方法確定λ值
8.4.2 交叉驗證法確定λ值
8.4.3 模型的預測
8.5 本章小結
8.6 課後練習
第9章 Logistic回歸分類模型
9.1 Logistic模型的構建
9.1.1 Logistic模型的參數求解
9.1.2 Logistic模型的參數解釋
9.2 分類模型的評估方法
9.2.1 混淆矩陣
9.2.2 ROC曲線
9.2.3 K-S曲線
9.3 Logistic回歸模型的應用——運動狀態的識別
……
本書以Python 3.7版本作為數據分析與挖掘實戰的應用工具,從Python的基礎語法開始,陸續介紹有關數值計算的numpy、數據處理的pandas、數據可視化的matplotlib和數據挖掘的sklearn等內容。全書共涵蓋15種可視化圖形以及10個常用的數據挖掘算法和實戰項目,通過本書的學習,讀者可以掌握數據分析與挖掘的理論知識和實戰技能。本書適於統計學、數學、經濟學、金融學、管理學以及相關理工科專業的本科生、研究生使用,也能夠提高從事數據咨詢、研究或分析等人士的專業水平和技能。
劉順祥 著
劉順祥,統計學碩士,“數據分析1480”公眾號運營者。曾就職於唯品會電商平臺,擔任高級數據分析師一職。目前就職於國內某數據咨詢公司,為聯想、亨氏、美麗田園、喜力、網魚網咖等企業提供數據咨詢服務。著有《從零開始學Python數據分析與挖掘》一書。