●章 數據分析與挖掘概述
1.1 什麼是數據分析和挖掘
1.2 數據分析與挖掘的應用領域
1.2.1 電商領域——發現破壞規則的“害群之馬
1.2.2 交通出行領域——為打車平臺進行私人訂制
1.2.3 醫療健康領域——找到最佳醫療方案
1.3 數據分析與挖掘的區別
1.4 數據挖掘的流程
1.4.1 明確目標
1.4.2 數據搜集
1.4.3 數據清洗
1.4.4 構建模型
1.4.5 模型評估
1.4.6 應用部署
1.5 常用的數據分析與挖掘工具
1.6 本章小結
第2章 從收入的預測分析開始
2.1 與安裝Anoconda
2.1.1 基於Windows繫統安裝
2.1.2 基於Mac繫統安裝
2.1.3 基於Linux繫統安裝
2.2 基於Python的案例實戰
2.2.1 數據的預處理
2.2.2 數據的探索性分析
2.2.3 數據建模
2.3 本章小結
第3章 Python快速入門
3.1 數據結構及方法
3.1.1 列表
3.1組
3.1.3 字典
3.2 控制流
3.2.1 if分支
3.2.2 for循環
3.2.3 while循環
3.3 字符串處理方法
3.3.1 字符串的常用方法
3.3.2 正則表達式
3.4 自定義函數
3.4.1 自定義函數語法
3.4.2 自定義函數的幾種參數
3.5 一個爬蟲案例
3.6 本章小結
第4章 Python數值計算工具——Numpy
4.1 數組的創建與操作
4.1.1 數組的創建
4.1.2素的獲取
4.1.3 數組的常用屬性
4.1.4 數組的形狀處理
4.2 數組的基本運算符
4.2.1 四則運算
4.2.2 比較運算
4.2.3 廣播運算
4.3 常用的數學和統計函數
4.4 線性代數的相關計算
4.4.1 矩陣乘法
4.4.2 diag函數的使用
4.4.3 特征根與特征向量
4.4.線性回歸模型的解
4.4.一次方程組的求解
4.4.6 範數的計算
4.5 偽隨機數的生成
4.6 本章小結
第5章 Python數據處理工具——Pandas
5.1 序列與數據框的構造
5.1.1 構造序列
5.1.2 構造數據框
5.2 外部數據的讀取
5.2.1 文本文件的讀取
5.2.2 電子表格的讀取
5.2.3 數據庫數據的讀取
5.3 數據類型轉換及描述統計
5.4 字符與日期數據的處理
5.5 常用的數據清洗方法
5.5.1 重復觀測處理
5.5.2 缺失值處理
5.5.3 異常值處理
5.6 數據子集的獲取
5.7 透視表功能
5.8 表之間的合並與連接
5.9 分組聚合操作
5.10 本章小結
第6章 Python數據可視化
6.1 離散型變量的可視化
6.1.1 餅圖
6.1.2 條形圖
6.2 數值型變量的可視化
6.2.1 直方圖與核密度曲線
6.2.2 箱線圖
6.2.3 小提琴圖
6.2.4 折線圖
6.3 關繫型數據的可視化
6.3.1 散點圖
6.3.2 氣泡圖
6.3.3 熱力圖
6.4 多個圖形的合並
6.5 本章小結
第7章 線性回歸預測模型
7.線性回歸模型
7.線性回歸模型
7.2.1 回歸模型的參數求解
7.2.2 回歸模型的預測
7.3 回歸模型的假設檢驗
7.3.1 模型的顯著性檢驗——F檢驗
7.3.2 回歸繫數的顯著性檢驗——t檢驗
7.4 回歸模型的診斷
7.4.1 正態性檢驗
7.4.2 多重共線性檢驗
7.4.3 線性相關性檢驗
7.4.4 異常值檢驗
7.4.5 獨立性檢驗
7.4.6 方差齊性檢驗
7.5 本章小結
第8章 嶺回歸與LASSO回歸模型
8.1 嶺回歸模型
8.1.1 參數求解
8.1.2 繫數求解的幾何意義
8.2 嶺回歸模型的應用
8.2.1 可視化方法確定值
8.2.2 交叉驗證法確定值
8.2.3 模型的預測
8.3 LASSO回歸模型
8.3.1 參數求解
8.3.2 繫數求解的幾何意義
8.4 LASSO回歸模型的應用
8.4.1 可視化方法確定值
8.4.2 交叉驗證法確定值
8.4.3 模型的預測
8.5 本章小結
第9章 Logistic回歸分類模型
9.1 Logistic模型的構建
9.1.1 Logistic模型的參數求解
9.1.2 Logistic模型的參數解釋
9.2 分類模型的評估方法
9.2.1 混淆矩陣
9.2.2 ROC曲線
9.2.3 K-S曲線
9.3 Logistic回歸模型的應用
9.3.1 模型的構建
9.3.2 模型的預測
9.3.3 模型的評估
9.4 本章小結
0章 決策樹與隨機森林
10.1 節點字段的選擇
10.1.1 信息增益
10.1.2 信息增益率
10.1.3 基尼指數
10.2 決策樹的剪枝
10.2.1 誤差降低剪枝法
10.2.2 悲觀剪枝法
10.2.3 代價復雜度剪枝法
10.3 隨機森林
10.4 決策樹與隨機森林的應用
10.4.1 分類問題的解決
10.4.2 預測問題的解決
10.5 本章小結
1章 KNN模型的應用
11.1 KNN算法的思想
11.2 最佳k值的選擇
11.3 相似度的度量方法
11.3.1 歐式距離
11.3.2 曼哈頓距離
11.3.3 餘弦相似度
11.3.4 傑卡德相似繫數
11.4 近鄰樣本的搜尋方法
11.4.1 KD樹搜尋法
11.4.2 球樹搜尋法
11.5 KNN模型的應用
11.5.1 分類問題的解決
11.5.2 預測問題的解決
11.6 本章小結
2章 樸素貝葉斯模型
12.1 樸素貝葉斯理論基礎
12.2 幾種貝葉斯模型
12.2.1 高斯貝葉斯分類器
12.2.2 高斯貝葉斯分類器的應用
12.2.3 多項式貝葉斯分類器
12.2.4 多項式貝葉斯分類器的應用
12.2.5 伯努利貝葉斯分類器
12.2.6 伯努利貝葉斯分類器的應用
12.3 本章小結
3章 SVM模型的應用
13.1 SVM簡介
13.1.1 距離公式的介紹
13.1.2 SVM的實現思想
13.2 幾種常見的SVM模型
13.2.1 線性可分的SVM
13.2.2 一個手動計算的案例
13.2.3 近似線性可分SVM
13.2.4 非線性可分SVM
13.2.5 幾種常用的SVM核函數
13.2.6 SVM的回歸預測
13.3 分類問題的解決
13.4 預測問題的解決
13.5 本章小結
4章 GBDT模型的應用
14.1 提升樹算法
14.1.1 AdaBoost算法的損失函數
14.1.2 AdaBoost算法的操作步驟
14.1.3 AdaBoost算法的簡單例子
14.1.4 AdaBoost算法的應用
14.2 梯度提升樹算法
14.2.1 GBDT算法的操作步驟
14.2.2 GBDT分類算法
14.2.3 GBDT回歸算法
14.2.4 GBDT算法的應用
14.3 非平衡數據的處理
14.4 XGBoost算法
14.4.1 XGBoost算法的損失函數
14.4.2 損失函數的演變
14.4.3 XGBoost算法的應用
14.5 本章小結
5章 Kmeans聚類分析
15.1 Kmeans聚類
15.1.1 Kmeans的思想
15.1.2 Kmeans的原理
15.2 最佳k值的確定
15.2.1 拐點法
15.2.2 輪廓繫數法
15.2.3 間隔統計量法
15.3 Kmeans聚類的應用
15.3.1 iris數據集的聚類
15.3.2 NBA球員數據集的聚類
15.4 Kmeans聚類的注意事項
15.5 本章小結
6章 DBSCAN與層次聚類分析
16.1 密度聚類簡介
16.1.1 密度聚類相關的概念
16.1.2 密度聚類的步驟
16.2 密度聚類與Kmeans的比較
16.3 層次聚類
16.3.1 簇間的距離度量
16.3.2 層次聚類的步驟
16.3.3 三種層次聚類的比較
16.4 密度聚類與層次聚類的應用
16.5 本章小結
內容簡介
本書以Python 3版本作為數據分析與挖掘實戰的應用工具,從Pyhton的基礎語法開始,陸續介紹有關數值計算的Numpy、數據處理的Pandas、數據可視化的Matplotlib和數據挖掘的Sklearn等內容。全書共涵蓋15種可視化圖形以及10個常用的數據挖掘算法和實戰項目,通過本書的學習,讀者可以掌握數據分析與挖掘的理論知識和實戰技能。
本書適於統計學、數學、經濟學、金融學、管理學以及相關理工科專業的本科生、研究生使用,也能夠提高從事數據咨詢、研究或分析等人士的專業水平和技能。