出版社:清華大學出版社 ISBN:9787302310617 商品編碼:10028922651699 包裝:平裝 出版時間:2013-05-01 代碼:39 作者:吳信東
"基本信息 書名:數據挖掘十大算法 定價 作者:(美)吳信東 庫瑪爾 出版社:清華大學出版社 出版日期:2013-05-01 ISBN:9787302310617 字數:256000 頁碼: 版次:1 裝幀:平裝 開本:12開 商品重量: 編輯推薦
1)闡述了由數據挖掘領域的專家推薦的、在實際中用途 廣、影響的十種數據挖掘算法。 (2)對每一種算法都進行了多個角度的深入剖析,包括算法歷史、算法過程、算法特性、軟件實現、前沿發展等。 (3)每章末尾給出了豐富的習題和精挑細選的參考文獻。 內容提要
數據挖掘這一學科近年來發展十分迅速,不僅產生了大量不同類型的挖掘算法,而且也表現出與機器學習等學科深度融合的態勢。無論是從事研究的專家學者還是從事應用的開發人員都十分希望能一窺其大略,從而比較準確地把握數據挖掘領域當前的主干技術,並比較全面地了解當前的發展趨勢。 當前,在市場上流通的數據挖掘方面的著作已經不算少了,主要是兩大類:一類是具有完整體繫的教材類圖書,一類是面向特定領域的應用型圖書。前者主要是服務教學,所以側重原理、邏輯嚴謹,但是通常對數據挖掘的前沿介紹比較欠缺。後者往往集中於介紹某一領域的問題和方法,或者是關於某些典型工具的使用方法,其優點在於直觀有效,但相對於整個數據挖掘領域其覆蓋面偏小。 為此,很有必要對整個數據挖掘領域的近期發展和前沿成果進行梳理,而這一類信息往往散見於相關的大量學術期刊和會議文集中,限於視野和精力,任何個人都難以完成這一任務。在此基礎上,還需要對當前龐大的數據挖掘知識體繫進行恰當的取舍和凝練,這一工作必須依靠該領域的高水平學者。所以,國際數據挖掘社區合眾人之力,在2006年推出了TheTopTenAlgorithmsinDataMining這一繼往開來之作。該書列舉了評選出來的十個影響力的數據挖掘算法:C4.5、kmeans、SVM、Apriori、EM、PageRank、AdaBoost、kNN、NaiveBayes和CART。我們認為該書有其鮮明特色: ,立意承前啟後,推出的時機恰當。該書的內容涵蓋了分類、聚類、統計學習、關聯分析和鏈接分析等重要主題在近年來的發展,這不但對數據挖掘的研究和發展十分重要,也將數據挖掘推動到更大範圍的真實應用中,激勵更多數據挖掘領域的學者對這些算法的作用和新問題進行深入探索。 第二,彙集群體智慧,具有很高性。參評人員囊括了歷屆ACMKDD創新獎和IEEEICDM研究貢獻獎得主這些學者,以及SIGKDD、ICDM和SDM這三大數據挖掘學術會議的程序委員會的全體委員。此外,還組織了專題會邀請了一百多位領域專家進行開放研討。 第三,執行過程嚴謹,確保內容高品質。階段是由學者推薦算法並提供算法名稱、簡要理由和代表文獻這些必要信息,第二階段用googlescholar對每個提名算法進行客觀地引用驗證和排序,第三個階段由數據挖掘社區的專家和相關領域的專家進行投票,獲得完全一致的結果。 後,邀請資深學者撰寫上榜算法的介紹並集結成書。 目錄
章C4.51 1.1引言2 1.2算法描述3 1.3算法特性6 1.3.1決策樹剪枝6 1.3.2連續型屬性8 1.3.3缺失值處理8 1.3.4規則集誘導9 1.4軟件實現10 1.5示例10 1.5.1Golf數據集10 1.5.2Soybean數據集11 1.6高級主題11 1.6.1二級存儲12 1.6.2斜決策樹12 1.6.3特征選擇12 1.6.4集成方法12 1.6.5分類規則13 1.6.6模型重述13 1.7習題14 參考文獻15 第2章kmeans18 2.1引言19 2.2算法描述19 2.3可用軟件22 2.4示例23 2.5高級主題27 2.6小結28 2.7習題28 參考文獻29 第3章SVM:支持向量機31 3.1支持向量分類器32 3.2支持向量分類器的軟間隔優化34 3.3核技巧35 3.4理論基礎38 3.5支持向量回歸器40 3.6軟件實現41 3.7當前和未來的研究41 3.7.1計算效率41 3.7.2核的選擇41 3.7.3泛化分析42 3.7.4結構化支持向量機的學習42 3.8習題43 參考文獻44 第4章Apriori47 4.1引言48 4.2算法描述48 4.2.1挖掘頻繁模式和關聯規則48 4.2.2挖掘序列模式52 4.2.3討論53 4.3軟件實現54 4.4示例55 4.4.1可行示例55 4.4.2性能評估60 4.5高級主題61 4.5.1改進Apriori類型的頻繁模式挖掘61 4.5.2無候選的頻繁模式挖掘62 4.5.3增量式方法63 4.5.4稠密表示: 閉合模式和模式63 4.5.5量化的關聯規則64 4.5.6其他的重要性/興趣度度量方法65 4.5.7類別關聯規則66 4.5.8使用更豐富的形式: 序列、樹和圖66 4.6小結67 4.7習題67 參考文獻68 第5章EM72 5.1引言73 5.2算法描述74 5.3軟件實現74 5.4示例75 5.4.1例5.1正態混合75 5.4.2例5.2: 混合因子分析78 5.5高級主題80 5.6習題81 參考文獻87 第6章PageRank90 6.1引言91 6.2算法描述92 6.3一個擴展: TimedPageRank95 6.4小結96 6.5習題96 參考文獻97 第7章AdaBoost98 7.1引言99 7.2算法描述99 7.2.1符號定義99 7.2.2通用推舉過程100 7.2.3AdaBoost算法101 7.3示例103 7.3.1異或問題求解103 7.3.2真實數據上的性能104 7.4實際應用105 7.5高級主題107 7.5.1理論問題107 7.5.2多類別AdaBoost110 7.5.3其他高級主題111 7.6軟件實現111 7.7習題112 參考文獻113 第8章kNN: k 近鄰115 8.1引言116 8.2算法描述116 8.2.1宏觀描述116 8.2.2若干議題117 8.2.3軟件實現118 8.3示例118 8.4高級主題120 8.5習題121 致謝121 參考文獻122 第9章Naive Bayes124 9.1引言125 9.2算法描述125 9.3獨立給力127 9.4模型擴展128 9.5軟件實現130 9.6示例130 9.6.1例1130 9.6.2例2132 9.7高級主題133 9.8習題133 參考文獻134 0章CART:分類和回歸樹136 10.1前身137 10.2概述138 10.3示例138 10.4算法描述140 10.5分裂準則141 10.6先驗概率和類別均衡142 10.7缺失值的處理144 10.8屬性的重要度145 10.9動態特征構造146 10.10代價敏感學習147 10.11停止準則、剪枝、樹序列和樹選擇147 10.12概率樹149 10.13理論基礎150 10.14CART之後的相關研究150 10.15可用軟件151 10.16習題152 參考文獻153 作者介紹
序言
" |