| | | 【新華正版】數據挖掘算法與應用 Python實現 9787302563778 清華 | 該商品所屬分類:圖書 -> | 【市場價】 | 608-880元 | 【優惠價】 | 380-550元 | 【出版社】 | 清華大學出版社 | 【ISBN】 | 9787302563778 | 【折扣說明】 | 一次購物滿999元台幣免運費+贈品 一次購物滿2000元台幣95折+免運費+贈品 一次購物滿3000元台幣92折+免運費+贈品 一次購物滿4000元台幣88折+免運費+贈品
| 【本期贈品】 | ①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
| |
版本 | 正版全新電子版PDF檔 | 您已选择: | 正版全新 | 溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。*. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。 *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。 *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。 | | | | 內容介紹 | |
出版社:清華大學出版社 ISBN:9787302563778 商品編碼:10024680895264 品牌:文軒 出版時間:2020-11-01 代碼:69
" 作 者:孫家澤,王曙燕 編 定 價:69.8 出 版 社:清華大學出版社 出版日期:2020年11月01日 頁 數:416 裝 幀:平裝 ISBN:9787302563778 本書是作者近幾年面向本科生和研究生開設的“數據挖掘及應用”的教學實踐與積累,介紹數據挖掘的經典算法、典型應用,以及Python數據分析、挖掘實現和6個經典應用案例。 ●第1章數據挖掘導論/1 1.1為什麼進行數據挖掘2 1.1.1數據挖掘起源2 1.1.2數據挖掘是數據處理的高級階段3 1.2什麼是數據挖掘4 1.2.1廣義技術角度的定義4 1.2.2狹義技術角度的定義5 1.2.3商業角度的定義6 1.2.4數據挖掘與機器學習6 1.3挖掘什麼類型的數據7 1.3.1數據庫數據7 1.3.2數據倉庫數據8 1.3.3事務數據9 1.3.4其他類型的數據9 1.4能挖掘到什麼知識10 1.4.1廣義知識11 1.4.2關聯知識12 1.4.3聚類知識13 1.4.4分類知識13 1.4.5預測型知識14 1.4.6偏差型知識14 1.4.7有價值的知識15 1.5數據挖掘方法15 1.5.1統計學16 1.5.2機器學習16 1.5.3數據庫繫統和數據倉庫18 1.5.4智能優化19 1.6數據挖掘過程20 1.6.1Fayyad數據挖掘模型20 1.6.2CRISP-DM模型21 1.6.3CRISP-DM案例25 1.6.4數據挖掘過程的工作量26 1.6.5數據挖掘需要的人員26 1.7數據挖掘應用27 1.7.1數據挖掘在市場營銷中的應用27 1.7.2數據挖掘在電信行業的應用28 1.7.3數據挖掘在銀行業的應用29 1.7.4數據挖掘在社交網絡分析中的應用29 1.7.5數據挖掘在軟件工程中的應用30 1.8數據挖掘中的隱私權保護33 1.8.1侵犯隱私權的表現34 1.8.2保護隱私權的對策35 1.9數據挖掘課程學習方法和資源36 1.9.1數據挖掘課程學習方法36 1.9.2開源數據挖掘工具37 1.9.3經典測試數據集39 1.9.4有名國際會議和期刊40 1.10思考與練習41 第2章數據探索與預處理/43 2.1數據屬性類型44 2.2數據的統計描述45 2.2.1中心趨勢度量:均值、中位數和眾數45 2.2.2度量數據散布47 2.3統計描述圖形49 2.4數據相似性度量53 2.4.1數據矩陣與相異性矩陣53 2.4.2標稱屬性的相異性度量54 2.4屬性的相異性度量54 2.4.4數值屬性的相異性56 2.4.5序數屬性的鄰近性度量58 2.5數據清洗59 2.5.1缺失值處理59 2.5.2噪聲數據處理62 2.5.3異常值處理67 2.6數據集成68 2.6.1實體識別問題68 2.6.2冗餘和相關分析69 2.6.3數據值衝突的檢測與處理71 2.7數據變換72 2.7.1數據變換策略概述72 2.7.2數據規範化72 2.7.3數據離散化和概念分層74 2.8數據歸約78 2.8.1數值歸約78 2.8.2屬性歸約81 2.9對數據預處理的點85 2.10思考與練習86 第3章關聯規則挖掘/87 3.1基本概念87 3.2Apriori算法89 3.2.1Apriori算法詳解90 3.2.2Apriori算法的例子95 3.2.3Apriori算法總結98 3.3FP-Growth算法98 3.3.1FP-Growth算法詳解99 3.3.2FP-Growth算法的例子108 3.4關聯規則評價109 3.5思考與練習112 第4章聚類分析/114 4.1聚類分析簡介114 4.2基於劃分的方法115 4.2.1k-means算法115 4.2.2k-medoids算法118 4.3基於層次的方法120 4.3.1AGNES算法121 4.3.2DIANA算法122 4.3.3BIRCH算法124 4.4基於密度的方法129 4.5基於概率的聚類133 4.6聚類圖數據138 4.6.1聚類圖數據度量138 4.6.2復雜網絡140 4.7聚類評估143 4.7.1估計聚類趨勢144 4.7.2確定簇數145 4.7.3測定聚類質量145 4.8思考與練習152 第5章分類/154 5.1基本概念154 5.1.1什麼是分類154 5.1.2分類的過程155 5.1.3分類器常見構造方法157 5.2KNN分類157 5.3貝葉斯分類160 5.3.1貝葉斯定理160 5.3.2樸素貝葉斯分類算法161 5.4決策樹分類164 5.4.1相關定義165 5.4.2CART算法原理166 5.4.3CART算法實例167 5.4.4CART算法的優缺點169 5.4.5ID3算法原理169 5.4.6ID3算法實例170 5.4.7ID3算法的優缺點175 5.4.8C4.5算法原理176 5.4.9C4.5算法實例176 5.4.10C4.5算法的優缺點184 5.4.113種算法的比較185 5.5分類算法評價185 5.5.1常用術語185 5.5.2評價指標186 5.5.3分類器性能的表示189 5.5.4分類器性能的評估方法192 5.6思考與練習193 第6章高級分類算法/195 6.1組合分類算法195 6.1.1算法起源195 6.1.2AdaBoost算法基本原理196 6.1.3分類器創建197 6.1.4算法實例199 6.1.5AdaBoost算法的優缺點206 6.2粒子群分類算法206 6.2.1粒子群優化算法簡介207 6.2.2基本粒子群優化算法207 6.2.3粒子群優化算法的特點209 6.2.4基於粒子群優化算法的分類器構造210 6.3支持向量機分類算法214 6.3.1支持向量機的基本概念214 6.3.2感知機模型215 6.3.3硬間隔支持向量機215 6.3.4軟間隔支持向量機219 6.3.5非線性支持向量機221 6.3.6支持向量機算法實例222 6.3.7支持向量機算法的優缺點224 6.4BP神經網絡分類算法224 6.4.1算法起源224 6.4.2BP神經網絡的理論基礎225 6.4.3BP神經網絡基本原理229 6.4.4BP神經網絡的學習機制230 6.4.5BP算法步驟233 6.4.6BP算法實例233 6.4.7BP算法的優缺點235 6.5思考與練習235 第7章Python數據分析/237 7.1搭建Python開發平臺237 7.2Python數據分析庫238 7.2.1NumPy238 7.2.2Pandas246 7.2.3SciPy251 7.2.4Scikit-Learn252 7.3Python數據可視化254 7.3.1Matplotlib254 7.3.2Seaborn261 7.3.3Bokeh265 7.4思考與練習267 第8章Python數據挖掘/269 8.1數據探索269 8.2數據預處理270 8.2.1數據清洗271 8.2.2數據集成275 8.2.3數據歸約277 8.2.4數據變換278 8.3聚類分析算法280 8.3.1k-means算法280 8.3.2DBSCAN算法285 8.4關聯規則算法288 8.4.1Apriori算法288 8.4.2FP樹算法293 8.5分類算法298 8.5.1ID3算法299 8.5.2C4.5算法305 8.5.3KNN算法311 8.6思考與練習317 第9章泰坦尼克號乘客生存率預測/318 9.1背景與挖掘目標318 9.2算法介紹318 9.2.1線性回歸算法318 9.2.2邏輯回歸算法320 9.2.3隨機森林算法322 9.3分析方法與過程326 9.3.1數據抽取326 9.3.2數據探索與分析327 9.3.3數據預處理330 9.3.4模型構建333 9.3.5模型檢驗335 9.4思考與練習336 第10章基於關聯規則的電影推薦/338 10.1選擇數據源338 10.2數據探索340 10.2.1異常值分析340 10.2.2周期性分析341 10.2.3統計量分析342 10.3數據預處理344 10.3.1數據加載344 10.3.2缺失值處理344 10.3.3異常值處理345 10.4數據挖掘算法實現346 10.5算法評估346 10.6主要代碼348 10.6.1頻繁項集生成代碼348 10.6.2關聯規則生成代碼350 10.6.3電影推薦代碼351 10.7思考與練習351 第11章航空公司客戶價值分析/353 11.1背景與挖掘目標353 11.2分析方法與過程353 11.2.1數據抽取355 11.2.2數據探索356 11.2.3數據預處理357 11.2.4模型構建359 11.2.5模型檢驗360 11.3思考與練習361 第12章基於協同過濾的音樂推薦/363 12.1推薦繫統和協同過濾算法363 12.1.1推薦繫統發展概況363 12.1.2基於用戶的協同過濾算法365 12.1.3基於項目的協同過濾算法368 12.1.4兩種算法的比較369 12.1.5協同過濾算法和基於內容的過濾算法比較370 12.1.6推薦繫統的評價370 12.2音樂推薦371 12.2.1數據獲取371 12.2.2數據預處理372 12.2.3數據分析及算法設計372 12.2.4結果輸出和模型評價375 12.3思考與練習377 第13章基於支持向量機的手寫數字識別/378 13.1背景與支持向量機的概念378 13.1.1很優超平面378 13.1.2軟間隔378 13.1.3線性不可分問題379 13.1.4支持向量機類型379 13.1.5支持向量機舉例379 13.1.6支持向量機的應用381 13.2分析方法與過程382 13.2.1數據集介紹382 13.2.2數據集讀取383 13.2.3數據集可視化383 13.3模型構建384 13.4模型檢驗386 13.5思考與練習387 第14章基於神經網絡的代碼壞味檢測/388 14.1神經網絡388 14.2代碼壞味檢測389 14.2.1代碼壞味簡介389 14.2.2代碼壞味研究現狀391 14.2.3代碼壞味公開數據集392 14.3基於神經網絡算法的代碼壞味檢測392 14.3.1準備數據392 14.3.2構建神經網絡393 14.3.3訓練模型395 14.3.4生成預測結果398 14.4思考與練習399 參考文獻/400 本書是作者近幾年面向本科生和研究生開設的"數據挖掘及應用"課程的教學實踐與積累,作者參考了國外有名大學相關課程的教學體繫,繫統地介紹數據挖掘領域的經典算法、Python實現以及典型應用。本書共14章,主要內容包括數據探索與預處理、關聯規則挖掘、聚類分析、分類算法(KNN分類、貝葉斯分類、決策樹分類)、神經網絡、支持向量機、組合分類等經典算法,以及Python數據分析和數據挖掘的實現和6個經典應用案例。本書介紹的經典算法及其應用案例均給出了相關實驗數據和Python程序代碼。 本書可作為高等院校信息類以及相關專業的高年級本科生和研究生教材,也可供對數據挖掘感興趣的工程技術人員閱讀參考。 孫家澤,王曙燕 編 孫家澤,男,博士,副教授,計算機軟件方向碩士研究生導師。1980年7月出生,漢族。2006年至今,西安郵電大學計算機學院任教,2017-2018美國西密歇根大學訪問學者,主講數據挖掘,數據庫技術,高級語言程序設計等課程,近5年先後主持多項軟件工程和數據分析類的項目,獲省市科技進步獎6次,授權國家發明專利2項,正在公開實審發明專利6項,軟件著作權5項,學術專著2部,參編教材2部,發表論文30多篇,多篇被SCI/EI檢索。主要從事數據挖掘、軟件測試和群體智能算法等方面研究。
" | | | | | |