[ 收藏 ] [ 繁体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

Python數據挖掘與機器學習實戰 方巍 Python,數據挖掘,機器學習
該商品所屬分類:圖書 -> 機械工業出版社
【市場價】
608-880
【優惠價】
380-550
【作者】 方巍 
【出版社】機械工業出版社 
【ISBN】9787111626817
【折扣說明】一次購物滿999元台幣免運費+贈品
一次購物滿2000元台幣95折+免運費+贈品
一次購物滿3000元台幣92折+免運費+贈品
一次購物滿4000元台幣88折+免運費+贈品
【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
版本正版全新電子版PDF檔
您已选择: 正版全新
溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
*. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
*. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
*. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
內容介紹



店鋪:機械工業出版社官方旗艦店
出版社:機械工業出版社
ISBN:9787111626817

商品編碼:10026475112331
品牌:機械工業出版社(CMP)
出版時間:2019-06-01

頁數:200
字數:500000
審圖號:9787111626817

作者:方巍

    
    
"baecf198635367d9.jpgeef3fc2728ae9c53.jpg

商品參數

  商品基本信息
商品名稱:   Python數據挖掘與機器學習實戰
作者:   方巍
市場價:   79.00
ISBN號:   9787111626817
版次:   1-1
出版日期:   1900-01
頁數:   263
字數:   500
出版社:   機械工業出版社


內容介紹

本書作為數據挖掘入門讀物,基於真實數據集進行案例實戰,使用Python數據科學庫,從數據預處理開始一步步介紹數據建模和數據挖掘的過程。主要介紹了數據挖掘的基礎知識、基本工具和實踐方法,通過循序漸進地講解算法,帶領讀者輕松踏上數據挖掘之旅。本書采用理論與實踐相結合的方式,呈現了如何使用邏輯回歸進行環境數據檢測,如何使用HMM進行中文分詞,如何利用卷積神經網絡識別雷達剖面圖,如何使用循環神經網絡構建聊天機器人,如何使用樸素貝葉斯算法進行破產預測,如何使用DCGAN網絡進行人臉生成等。本書也涉及神經網絡、在線學習、強化學習、深度學習、大數據處理等內容。 本書適合對傳統數據挖掘和機器學習算法開發感興趣的讀者閱讀,也適合需要繫統掌握深度學習的開發人員閱讀。

關聯推薦

  暫時沒有目錄,請見諒!

在線試讀

*1章 機器學習基礎人工智能(Artificial Intelligence,AI)是智能機器,如計算機所執行的與人類智能有關的功能,如識別、判斷、證明、學習和問題求解等思維活動。這反映了人工智能學科的基本思想和內容,即人工智能是研究人類智能活動規律的一門學科。1956年在Dartmouth學會上*次提出了“人工智能”這一概念,而人工智能開始迅速發展是在計算機出現後,因為人們真正有了可以模擬人類思維的工具。現如今,人工智能已經不再是一個小眾化的研究課題了,全世界幾乎所有的理工科類大學都在研究這門學科,甚到為此設立了專門的研究機構。越來越多的學習計算機、自動化控制和軟件工程專業的本科生或研究生,將人工智能作為自己的研究方向。在科學家的不懈努力下,如今的計算機與原來相比已經變得十分“聰明”了,某些時候計算機已經可以完成原來隻屬於人類的工作,並且其高速性和準確性是人類遠不可及的。 機器學習(Machine Learning,ML)是人工智能研究領域中*重要的分支之一。它是一門涉及多領域的交叉學科,其包含高等數學、統計學、概率論、凸分析和逼近論等多門學科。該學科專門研究計算機應如何模擬並實現人類的學習行為,以獲取人類所不了解的新知識,並使計算機能夠使用已有的知識或經驗,不斷改善自身的性能以得到更加*確的知識。它是人工智能的核心,是使計算機具有智能的根本途徑。其應用遍及人工智能的各個領域。它主要使用歸納、綜合而不是演繹。 數據挖掘(Data Mining)是從海量數據中獲取有效的、新穎的、潛在有用的、*終可理解模式的非平凡過程。數據挖掘中用到了大量的機器學習界所提供的數據分析技術和數據庫界所提供的數據管理技術。從數據分析的角度來看,數據挖掘與機器學習有很多相似之處,但不同之處也十分明顯。例如,數據挖掘並沒有機器學習探索人的學習機制這一科學發現任務,數據挖掘中的數據分析是針對海量數據進行的。從某種意義上說,機器學習的科學成分更重一些,而數據挖掘的技術成分更重一些。數據挖掘中用到了大量的機器學習界所提供的數據分析技術和數據庫界所提供的數據管理技術。簡單地說,機器學習和數據庫是數據挖掘的基石。 本章要點: q 機器學習概述; q 機器學習的發展歷程; q 機器學習分類及其應用; q Python語言的優勢; qPython常用開發工具。 1.1 機器學習概述

1章  機器學習基礎

人工智能(Artificial Intelligence,AI)是智能機器,如計算機所執行的與人類智能有關的功能,如識別、判斷、證明、學習和問題求解等思維活動。這反映了人工智能學科的基本思想和內容,即人工智能是研究人類智能活動規律的一門學科。1956年在Dartmouth學會上*次提出了“人工智能”這一概念,而人工智能開始迅速發展是在計算機出現後,因為人們真正有了可以模擬人類思維的工具。現如今,人工智能已經不再是一個小眾化的研究課題了,全世界幾乎所有的理工科類大學都在研究這門學科,甚到為此設立了專門的研究機構。越來越多的學習計算機、自動化控制和軟件工程專業的本科生或研究生,將人工智能作為自己的研究方向。在科學家的不懈努力下,如今的計算機與原來相比已經變得十分“聰明”了,某些時候計算機已經可以完成原來隻屬於人類的工作,並且其高速性和準確性是人類遠不可及的。

機器學習(Machine Learning,ML)是人工智能研究領域中*重要的分支之一。它是一門涉及多領域的交叉學科,其包含高等數學、統計學、概率論、凸分析和逼近論等多門學科。該學科專門研究計算機應如何模擬並實現人類的學習行為,以獲取人類所不了解的新知識,並使計算機能夠使用已有的知識或經驗,不斷改善自身的性能以得到更加*確的知識。它是人工智能的核心,是使計算機具有智能的根本途徑。其應用遍及人工智能的各個領域。它主要使用歸納、綜合而不是演繹。

數據挖掘(Data Mining)是從海量數據中獲取有效的、新穎的、潛在有用的、*終可理解模式的非平凡過程。數據挖掘中用到了大量的機器學習界所提供的數據分析技術和數據庫界所提供的數據管理技術。從數據分析的角度來看,數據挖掘與機器學習有很多相似之處,但不同之處也十分明顯。例如,數據挖掘並沒有機器學習探索人的學習機制這一科學發現任務,數據挖掘中的數據分析是針對海量數據進行的。從某種意義上說,機器學習的科學成分更重一些,而數據挖掘的技術成分更重一些。數據挖掘中用到了大量的機器學習界所提供的數據分析技術和數據庫界所提供的數據管理技術。簡單地說,機器學習和數據庫是數據挖掘的基石。

本章要點:

q 機器學習概述;

q 機器學習的發展歷程;

q 機器學習分類及其應用;

q Python語言的優勢;

qPython常用開發工具。

1.1  機器學習概述

機器學習,通俗地講就是讓機器來實現學習的過程,讓機器擁有學習的能力,從而改善繫統自身的性能。對於機器而言,這裡的“學習”指的是從數據中學習,從數據中產生“模型”的算法,即“學習算法”。有了學習算法,隻要把經驗數據提供給它,它就能夠基於這些數據產生模型,在面對新的情況時,模型能夠提供相應的判斷,進行預測,如圖1-1所示。機器學習實質是基於數據集的,通過對數據集的研究,找出數據集中數據之間的聯繫和數據的真實含義。

 

圖1-1  什麼是機器學習

1.2  機器學習的發展歷程

機器學習屬於人工智能中一個較為“年輕”的分支,大致可以分為以下3個發展階段。

*一階段:20世紀50年代中期到60年代中期,這一時期處於萌芽時期。人們試圖通過軟件編程來操控計算機完成一繫列的邏輯推理功能,進而使計算機具有一定程度上類似於人類的智能思考能力。然而這一時期計算機所推理的結果遠遠沒有達到人們對機器學習的期望。通過進一步研究發現,隻具有邏輯推理能力並不能使機器智能。研究者們認為,使機器擁有人工智能的前提,必須是擁有大量的先驗知識。

*二階段:20世紀60年代中期到80年代中期,這一時期處於發展時期。人們試圖利用自身思維提取出來的規則教會計算機執行決策行為,主流之力便是各式各樣的“專家繫統”。然而這些繫統總會面臨“知識稀疏”的問題,即面對無窮無盡的知識與信息,人們無法總結出萬無一失的規律。因此,讓機器自主學習的設想自然地浮出水面。基於20世紀50年代對於神經網絡的研究,人們開始研究如何讓機器自主學習。

第三階段:20世紀80年代到今,機器學習達到了一個繁榮時期。由於這一時期互聯網大數據及硬件GPU的出現,使得機器學習突破了瓶頸期。機器學習開始呈現“爆炸”式發展趨勢,逐漸成為了一門獨立的熱門學科,並且被應用到各個領域中。各種機器學習算法不斷湧現,而利用深層次神經網絡的深度學習也得到了進一步發展。同時,機器學習的蓬勃發展還促進了其他分支的出現,如模式識別、數據挖掘、生物信息學和自動駕駛等。

1.3  機器學習分類

機器學習的思想並不復雜,它僅僅是對人類生活、學習過程的一個模擬。而在這整個過程中,*關鍵的是數據。任何通過數據訓練的學習算法的相關研究都屬於機器學習,包括很多已經發展多年的技術,比如線性回歸(Linear Regression)、K均值(K-Means,基於原型的目標函數聚類方法)、決策樹(Decision Trees,運用概率分析的一種圖解法)、隨機森林(Random Forest,運用概率分析的一種圖解法)、PCA(Principal Component Analysis,主成分分析)、SVM(Support Vector Machine,支持向量機)和ANN(Artificial Neural Networks,人工神經網絡)。可見,機器學習的算法非常多,本節將介紹一些*常用的機器學習分類方法,詳細的機器學習算法將在後續的章節中進行介紹。

1.3.1   監督學習

監督學習(Supervised Learning)表示機器學習的數據是帶標記的,這些標記可以包括數據類別、數據屬性及特征點位置等。這些標記作為預期效果,不斷修正機器的預測結果。具體實現過程是:通過大量帶有標記的數據來訓練機器,機器將預測結果與期望結果進行比對;之後根據比對結果來修改模型中的參數,再一次輸出預測結果;然後將預測結果與期望結果進行比對,重復多次直到收斂,*終生成具有一定魯棒性的模型來達到智能決策的能力。常見的監督學習有分類和回歸。分類(Classification)是將一些實例數據分到合適的類別中,它的預測結果是離散的。回歸(Regression)是將數據歸到一條“線”上,即為離散數據生產擬合曲線,因此其預測結果是連續的。

1.3.2   無監督學習

無監督學習(Unsupervised Learning)表示機器學習的數據是沒有標記的。機器從無標記的數據中探索並推斷出潛在的聯繫。常見的無監督學習有聚類和降維。在聚類(Clustering)工作中,由於事先不知道數據類別,因此隻能通過分析數據樣本在特征空間中的分布,例如基於密度或基於統計學概率模型等,從而將不同數據分開,把相似數據聚為一類。降維(Dimensionality Reduction)是將數據的維度降低。例如描述一個西瓜,若隻考慮外皮顏色、根蒂、敲聲、紋理、大小及含糖率這6個屬性,則這6個屬性代表了西瓜數據的維度為6。進一步考慮降維的工作,由於數據本身具有龐大的數量和各種屬性特征,若對全部數據信息進行分析,將會增加訓練的負擔和存儲空間。因此可以通過主成分分析等其他方法,考慮主要影響因素,舍棄次要因素,從而平衡準確度與效率。

1.3.3   強化學習

強化學習(Reinforcement Learning)是帶有激勵機制的,具體來說,如果機器行動正確,將施予一定的“正激勵”;如果行動錯誤,同樣會給出一個懲罰(也可稱為“負激勵”)。因此在這種情況下,機器將會考慮如何在一個環境中行動纔能達到激勵的*大化,具有一定的動態規劃思想。例如在貪喫蛇遊戲中,貪喫蛇需要通過不斷喫到“食物”來加分。為了不斷提高分數,貪喫蛇需要考慮在自身位置上如何轉向纔能喫到“食物”,這種學習過程便可理解為一種強化學習。強化學習*為火熱的一個應用就是谷歌AlphaGo的升級品——AlphaGo Zero。相較於AlphaGo,AlphaGo Zero舍棄了先驗知識,不再需要人為設計特征,直接將棋盤上黑、白棋子的擺放情況作為原始數據輸入到模型中,機器使用強化學習來自我博弈,不斷提升自己從而*終出色完成下棋任務。AlphaGo Zero的成功,證明了在沒有人類的經驗和指導下,深度強化學習依然能夠出色地完成指定任務。

1.3.4  深度學習

我們要想具有更強的智慧,除了擁有大量的數據以外還要有好的經驗總結方法。深度學習就是一種實現這種機器學習的*秀技術。深度學習本身是神經網絡算法的衍生。作為深度學習父類的機器學習,是人工智能的核心,它屬於人工智能的一個分支。深度學習是新興的機器學習研究領域,旨在研究如何從數據中自動地提取多層特征表示,其核心思想是通過數據驅動的方式,采用一繫列的非線性變換,從原始數據中提取由低層到高層、由具體到抽像、由一般到特定語義的特征。深度學習不僅改變著傳統的機器學習方法,也影響著人類感知的理解,迄今已在語音識別、圖像理解、自然語言處理和視頻推薦等應用領域引發了突破性的變革。

1.4  機器學習的應用

近幾年的時間裡,深度學習算法如雨後春筍般不斷湧現。這些算法在計算機圖像識別、語音和視頻識別、自然語言處理及信息檢索等領域不斷刷新歷史記錄。本節將根據不同應用領域對相關的知名案例進行簡述。

1.圖像識別

圖像識別過去依賴人工設置的特征,特別適合於提取低等級邊界信息的SIFT(尺度不變特征轉換)或HOG(方向梯度直方圖)等。然而,隨著小樣本無法真實反映實際復雜的情況,研究人員開始在大數據集上進行實驗。

1995年Yann Lecun設計了LeNet-5網絡,該網絡使用了2個卷積層、2個池化層和2個全連接層,形成典型的CNN(卷積神經網絡),在MNIST數據集上的實驗得到了0.9%的錯誤率,被用於銀行手寫支票識別。這也是CNN的成功案例之一。

2006年,Hinton用一個擁有3個隱藏層、170多萬權重的深度置信網絡在MNIST手寫特征識別的數據集上進行訓練,在沒有對樣本進行預處理的情況下,在1萬條左右的測試集上,錯誤率為1.25%,低於反向傳播網絡及支持向量機(SVM)。

2011年,Google公司建立了全球*大的神經網絡,即“深度神經網絡”(DNN),也叫“谷歌大腦”,並進行了一個貓臉識別的實驗。該實驗從YouTube視頻中取出1000萬張靜態圖片,讓繫統自動學習並判斷哪些是貓的圖片。實驗結果表明,他們所建立的深層網絡及其算法,在ImageNet數據集1萬張圖中效果提升了15%,2.2萬張圖中效果提升了70%。該網絡是一個用16000個CPU並行計算平臺訓練內部擁有10億個節點的機器學習模型。

2016年初,谷歌旗下*強大腦(DeepMind)公司推出人工智能機器人AlphaGo,創下了圍棋人工智能領域的諸多世界紀錄。包括:在不讓子的情況下,*一次在完整的圍棋競技中擊敗專業選手(比分5∶0);在中國圍棋規則下,成功挑戰圍棋世界*軍李世石(比分4∶1)。AlphaGo的關鍵技術有深度學習、強化學習和蒙特卡洛樹搜索。在其有監督學習策略和強化學習價值網絡中采用了CNN結構。

2.語音識別

在過去,語音識別一直采用GMM-HMM模型。2012年,HinTon等人考慮了語音數據內部原有的結構特征以後,將傳統的模型中的高斯混合模型GMM替換為DBN進行實驗。結果表明,在TIMIT核心測試集上,錯誤率降到20.7%,準確率有明顯提升。無獨有偶,其他研究人員也嘗試將GMM-HMM中的GMM替換為其他深度神經網絡,也得到了良好的效果。

微軟公司的語音視頻檢索繫統(MAVIS),也是在CD-DNN-HMM深度模型的基礎上進行開發的,其在RT03S數據集上單詞錯誤率從27.4%降低到了18.5%。2012年,微軟在天津公開演示了MAVIS繫統對現場講演者的英文演講,進行後臺的語音識別、英/中文機器翻譯和中文語音合成等一繫列處理,效果流暢。

3.自然語言處理

自然語言處理(NLP)傳統處理方法的缺陷為采用淺層結構,使用線性分類器且需要人工設計大量較好的特征進行預處理,特征在分離的任務中被串聯導致傳播誤差增大。2003年,Bengio等人提出詞向量方法,采用神經網絡構建語言模型。之後,研究人員在此基礎上提出了不同的詞向量訓練模型。由於人類自然語言具有遞歸特性,即任何語言中的句子,事實上可以由詞、短語遞歸組合而成,因此,將循環神經網絡(RNN)引入NLP成為一種趨勢。從2010年開始,來自Google的一些研究者一直從事該領域的研究,提出了RNNLM(循環神經網絡語言模型),在語言模型的訓練速度、準確率及困惑度上得到了改善。

4.醫療保健

退伍軍人創傷後成長計劃與IBM Watson合作使用人工智能和分析技術,以確保更多患有創傷後應激障礙的退伍軍人能夠完成心理治療。使用這些技術後,使完成率從原來的不到10%上升到73%。根據退伍軍人事務部的統計,80%的患有創傷後應激障礙的退伍軍人在確診後一年內完成治療計劃,得到康復。在參加了阿富汗和伊拉克戰爭的300萬名老兵中,大約有五分之一的老兵患有創傷後應激障礙。

以色列醫療技術公司MedyMatch和IBM Watson Health正在使用人工智能,通過檢測顱內出血,幫助醫院急診室的醫生更有效地治療中風和頭部外傷患者。AI繫統使用臨床洞察力(clinical insight)、深度學習、患者數據和機器視覺來自動標記潛在的腦出血,以供醫生檢查。

用於檢測和診斷癌癥的傳統方法包括計算機斷層掃描(CT)、磁共振成像(MRI)、超聲和X射線。不幸的是,許多癌癥無法通過這些技術得到足夠準確的診斷,從而及時地挽救生命。微陣列基因圖譜的分析是一種替代方法,但這項技術需要很多小時的計算,除非這項技術可以使用AI替換。現在已經被證明,斯坦福大學的人工智能診斷算法可以與醫療團隊(由21名經委員會認證的皮膚科醫生組成)一樣有效地從圖像中檢測潛在的皮膚癌。Startup Enlitic正在使用深度學習來檢測CT圖像中的肺癌結節,其算法比一個胸科醫生組成的專家團隊的準確率高50%。

在人工智能的幫助下,其他醫療保健公司正在經歷診斷、治療甚到治愈的過程。Insilico Medicine正在用深度學習算法尋找新藥和治療方法,包括新的免疫療法。這些基因療法使用每個病人的細胞來模擬他們自己的生物學和免疫繫統。

人工智能之所以能使這些療法奏效,是因為它能設計出組合療法,並以閃電般的速度,以模擬的形式進行數百萬次實驗,來識別令人難以置信的復雜生物標記物。

縱觀深度學習在人工智能不同細分領域中的應用,在計算機視覺、語音識別和自然語言處理等領域中成績相對顯著。但是在其他相關領域,依然不時湧現新的深度結構及其算法。

1.5  開發機器學習的步驟

本書學習和使用機器學習算法開發應用程序,通常遵循以下步驟。

(1)收集數據。

收集所需的數據,方法如:網絡爬蟲、問卷調查獲取的信息、一些設備發送過來的數據,以及從物聯網設備獲取的數據等。

(2)準備輸入數據。

得到數據之後,要確保得到的數據格式符合要求,如某些算法要求特征值需要使用特定的格式。

(3)分析輸入的數據。

查看輸入的數據是否有明顯的異常值,如某些數據點和數據集中的其他值存在明顯的差異。通過一維、二維或者三維圖形化展示數據是個不錯的方法,但是得到的數據特征值都不會低於三個,無法一次圖形化展示所有特征。可以通過數據的提煉,壓縮多維特征到二維或者一維。

(4)訓練算法。

機器學習算法從這一步纔算真正開始。需要考慮算法是使用監督學習算法還是無監督學習算法。如果使用無監督學習算法,由於不存在目標變量值,因而也不需要訓練算法,所有與算法相關的內容都在第(5)步。

(5)測試算法。

這一步將實際使用第(4)步機器學習得到的知識信息。為了評估算法,必須測試算法工作的效果。對於監督學習,必須已知用於評估算法的目標變量值;對於無監督學習,也必須通過其他的評測手段來檢測算法的成功率。如果不滿意預測結果,則返回到第(4)步。

(6)使用算法。

這一步是將機器學習算法轉化為應用程序,執行實際任務。

開發機器學習應用程序的步驟如圖1-2所示。 顯示全部信息


"
 
網友評論  我們期待著您對此商品發表評論
 
相關商品
在線留言 商品價格為新臺幣
關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
返回頂部