了得網圖書_【新華正版】數據挖掘算法與應用 Python實現 9787302563778 清華

作者:孫家澤,王曙燕編

定價:69.8

出版社:清華大學出版社

出版日期:2020年11月01日

頁數:416

裝幀:平裝

ISBN:9787302563778

本書是作者近幾年面向本科生和研究生開設的“數據挖掘及應用”的教學實踐與積累，介紹數據挖掘的經典算法、典型應用，以及Python數據分析、挖掘實現和6個經典應用案例。

●第1章數據挖掘導論/1
1.1為什麼進行數據挖掘2
1.1.1數據挖掘起源2
1.1.2數據挖掘是數據處理的高級階段3
1.2什麼是數據挖掘4
1.2.1廣義技術角度的定義4
1.2.2狹義技術角度的定義5
1.2.3商業角度的定義6
1.2.4數據挖掘與機器學習6
1.3挖掘什麼類型的數據7
1.3.1數據庫數據7
1.3.2數據倉庫數據8
1.3.3事務數據9
1.3.4其他類型的數據9
1.4能挖掘到什麼知識10
1.4.1廣義知識11
1.4.2關聯知識12
1.4.3聚類知識13
1.4.4分類知識13
1.4.5預測型知識14
1.4.6偏差型知識14
1.4.7有價值的知識15
1.5數據挖掘方法15
1.5.1統計學16
1.5.2機器學習16
1.5.3數據庫繫統和數據倉庫18
1.5.4智能優化19
1.6數據挖掘過程20
1.6.1Fayyad數據挖掘模型20
1.6.2CRISP-DM模型21
1.6.3CRISP-DM案例25
1.6.4數據挖掘過程的工作量26
1.6.5數據挖掘需要的人員26
1.7數據挖掘應用27
1.7.1數據挖掘在市場營銷中的應用27
1.7.2數據挖掘在電信行業的應用28
1.7.3數據挖掘在銀行業的應用29
1.7.4數據挖掘在社交網絡分析中的應用29
1.7.5數據挖掘在軟件工程中的應用30
1.8數據挖掘中的隱私權保護33
1.8.1侵犯隱私權的表現34
1.8.2保護隱私權的對策35
1.9數據挖掘課程學習方法和資源36
1.9.1數據挖掘課程學習方法36
1.9.2開源數據挖掘工具37
1.9.3經典測試數據集39
1.9.4有名國際會議和期刊40
1.10思考與練習41
第2章數據探索與預處理/43
2.1數據屬性類型44
2.2數據的統計描述45
2.2.1中心趨勢度量：均值、中位數和眾數45
2.2.2度量數據散布47
2.3統計描述圖形49
2.4數據相似性度量53
2.4.1數據矩陣與相異性矩陣53
2.4.2標稱屬性的相異性度量54
2.4屬性的相異性度量54
2.4.4數值屬性的相異性56
2.4.5序數屬性的鄰近性度量58
2.5數據清洗59
2.5.1缺失值處理59
2.5.2噪聲數據處理62
2.5.3異常值處理67
2.6數據集成68
2.6.1實體識別問題68
2.6.2冗餘和相關分析69
2.6.3數據值衝突的檢測與處理71
2.7數據變換72
2.7.1數據變換策略概述72
2.7.2數據規範化72
2.7.3數據離散化和概念分層74
2.8數據歸約78
2.8.1數值歸約78
2.8.2屬性歸約81
2.9對數據預處理的點85
2.10思考與練習86
第3章關聯規則挖掘/87
3.1基本概念87
3.2Apriori算法89
3.2.1Apriori算法詳解90
3.2.2Apriori算法的例子95
3.2.3Apriori算法總結98
3.3FP-Growth算法98
3.3.1FP-Growth算法詳解99
3.3.2FP-Growth算法的例子108
3.4關聯規則評價109
3.5思考與練習112
第4章聚類分析/114
4.1聚類分析簡介114
4.2基於劃分的方法115
4.2.1k-means算法115
4.2.2k-medoids算法118
4.3基於層次的方法120
4.3.1AGNES算法121
4.3.2DIANA算法122
4.3.3BIRCH算法124
4.4基於密度的方法129
4.5基於概率的聚類133
4.6聚類圖數據138
4.6.1聚類圖數據度量138
4.6.2復雜網絡140
4.7聚類評估143
4.7.1估計聚類趨勢144
4.7.2確定簇數145
4.7.3測定聚類質量145
4.8思考與練習152
第5章分類/154
5.1基本概念154
5.1.1什麼是分類154
5.1.2分類的過程155
5.1.3分類器常見構造方法157
5.2KNN分類157
5.3貝葉斯分類160
5.3.1貝葉斯定理160
5.3.2樸素貝葉斯分類算法161
5.4決策樹分類164
5.4.1相關定義165
5.4.2CART算法原理166
5.4.3CART算法實例167
5.4.4CART算法的優缺點169
5.4.5ID3算法原理169
5.4.6ID3算法實例170
5.4.7ID3算法的優缺點175
5.4.8C4.5算法原理176
5.4.9C4.5算法實例176
5.4.10C4.5算法的優缺點184
5.4.113種算法的比較185
5.5分類算法評價185
5.5.1常用術語185
5.5.2評價指標186
5.5.3分類器性能的表示189
5.5.4分類器性能的評估方法192
5.6思考與練習193
第6章高級分類算法/195
6.1組合分類算法195
6.1.1算法起源195
6.1.2AdaBoost算法基本原理196
6.1.3分類器創建197
6.1.4算法實例199
6.1.5AdaBoost算法的優缺點206
6.2粒子群分類算法206
6.2.1粒子群優化算法簡介207
6.2.2基本粒子群優化算法207
6.2.3粒子群優化算法的特點209
6.2.4基於粒子群優化算法的分類器構造210
6.3支持向量機分類算法214
6.3.1支持向量機的基本概念214
6.3.2感知機模型215
6.3.3硬間隔支持向量機215
6.3.4軟間隔支持向量機219
6.3.5非線性支持向量機221
6.3.6支持向量機算法實例222
6.3.7支持向量機算法的優缺點224
6.4BP神經網絡分類算法224
6.4.1算法起源224
6.4.2BP神經網絡的理論基礎225
6.4.3BP神經網絡基本原理229
6.4.4BP神經網絡的學習機制230
6.4.5BP算法步驟233
6.4.6BP算法實例233
6.4.7BP算法的優缺點235
6.5思考與練習235
第7章Python數據分析/237
7.1搭建Python開發平臺237
7.2Python數據分析庫238
7.2.1NumPy238
7.2.2Pandas246
7.2.3SciPy251
7.2.4Scikit-Learn252
7.3Python數據可視化254
7.3.1Matplotlib254
7.3.2Seaborn261
7.3.3Bokeh265
7.4思考與練習267
第8章Python數據挖掘/269
8.1數據探索269
8.2數據預處理270
8.2.1數據清洗271
8.2.2數據集成275
8.2.3數據歸約277
8.2.4數據變換278
8.3聚類分析算法280
8.3.1k-means算法280
8.3.2DBSCAN算法285
8.4關聯規則算法288
8.4.1Apriori算法288
8.4.2FP樹算法293
8.5分類算法298
8.5.1ID3算法299
8.5.2C4.5算法305
8.5.3KNN算法311
8.6思考與練習317
第9章泰坦尼克號乘客生存率預測/318
9.1背景與挖掘目標318
9.2算法介紹318
9.2.1線性回歸算法318
9.2.2邏輯回歸算法320
9.2.3隨機森林算法322
9.3分析方法與過程326
9.3.1數據抽取326
9.3.2數據探索與分析327
9.3.3數據預處理330
9.3.4模型構建333
9.3.5模型檢驗335
9.4思考與練習336
第10章基於關聯規則的電影推薦/338
10.1選擇數據源338
10.2數據探索340
10.2.1異常值分析340
10.2.2周期性分析341
10.2.3統計量分析342
10.3數據預處理344
10.3.1數據加載344
10.3.2缺失值處理344
10.3.3異常值處理345
10.4數據挖掘算法實現346
10.5算法評估346
10.6主要代碼348
10.6.1頻繁項集生成代碼348
10.6.2關聯規則生成代碼350
10.6.3電影推薦代碼351
10.7思考與練習351
第11章航空公司客戶價值分析/353
11.1背景與挖掘目標353
11.2分析方法與過程353
11.2.1數據抽取355
11.2.2數據探索356
11.2.3數據預處理357
11.2.4模型構建359
11.2.5模型檢驗360
11.3思考與練習361
第12章基於協同過濾的音樂推薦/363
12.1推薦繫統和協同過濾算法363
12.1.1推薦繫統發展概況363
12.1.2基於用戶的協同過濾算法365
12.1.3基於項目的協同過濾算法368
12.1.4兩種算法的比較369
12.1.5協同過濾算法和基於內容的過濾算法比較370
12.1.6推薦繫統的評價370
12.2音樂推薦371
12.2.1數據獲取371
12.2.2數據預處理372
12.2.3數據分析及算法設計372
12.2.4結果輸出和模型評價375
12.3思考與練習377
第13章基於支持向量機的手寫數字識別/378
13.1背景與支持向量機的概念378
13.1.1很優超平面378
13.1.2軟間隔378
13.1.3線性不可分問題379
13.1.4支持向量機類型379
13.1.5支持向量機舉例379
13.1.6支持向量機的應用381
13.2分析方法與過程382
13.2.1數據集介紹382
13.2.2數據集讀取383
13.2.3數據集可視化383
13.3模型構建384
13.4模型檢驗386
13.5思考與練習387
第14章基於神經網絡的代碼壞味檢測/388
14.1神經網絡388
14.2代碼壞味檢測389
14.2.1代碼壞味簡介389
14.2.2代碼壞味研究現狀391
14.2.3代碼壞味公開數據集392
14.3基於神經網絡算法的代碼壞味檢測392
14.3.1準備數據392
14.3.2構建神經網絡393
14.3.3訓練模型395
14.3.4生成預測結果398
14.4思考與練習399
參考文獻/400

本書是作者近幾年面向本科生和研究生開設的"數據挖掘及應用"課程的教學實踐與積累，作者參考了國外有名大學相關課程的教學體繫，繫統地介紹數據挖掘領域的經典算法、Python實現以及典型應用。本書共14章，主要內容包括數據探索與預處理、關聯規則挖掘、聚類分析、分類算法（KNN分類、貝葉斯分類、決策樹分類）、神經網絡、支持向量機、組合分類等經典算法，以及Python數據分析和數據挖掘的實現和6個經典應用案例。本書介紹的經典算法及其應用案例均給出了相關實驗數據和Python程序代碼。
本書可作為高等院校信息類以及相關專業的高年級本科生和研究生教材，也可供對數據挖掘感興趣的工程技術人員閱讀參考。

孫家澤,王曙燕編

孫家澤，男，博士，副教授，計算機軟件方向碩士研究生導師。1980年7月出生，漢族。2006年至今，西安郵電大學計算機學院任教，2017-2018美國西密歇根大學訪問學者，主講數據挖掘，數據庫技術，高級語言程序設計等課程，近5年先後主持多項軟件工程和數據分析類的項目，獲省市科技進步獎6次，授權國家發明專利2項，正在公開實審發明專利6項，軟件著作權5項，學術專著2部，參編教材2部，發表論文30多篇，多篇被SCI/EI檢索。主要從事數據挖掘、軟件測試和群體智能算法等方面研究。

商品搜索

商品分类

【醫學】

【各大出版社】

【医学】

【各大出版社】