出版社:機械工業出版社 ISBN:9787111589860 商品編碼:40896742918 品牌:文軒 出版時間:2018-04-01 代碼:59 作者:阿爾貝托·博斯凱蒂(AlbertoBosch
"
作 者:[意]阿爾貝托·博斯凱蒂(Alberto Boschetti) 盧卡·馬薩羅(Luca Massaron) 著 於俊偉 譯 定 價:59 出 版 社:機械工業出版社 出版日期:2018年04月01日 頁 數:222 裝 幀:平裝 ISBN:9787111589860 ●目 錄譯者序前言作者簡介第1章 新手上路 11.1 數據科學與Python簡介 11.2 Python的安裝 21.2.1 Python 2還是Python 3 31.2.2 分步安裝 31.2.3 工具包的安裝 41.2.4 工具包升級 61.2.5 科學計算發行版 61.2.6 虛擬環境 81.2.7 核心工具包一瞥 111.3 Jupyter簡介 171.3.1 快速安裝與初次使用 191.3.2 Jupyter魔術命令 201.3.3 Jupyter Notebook怎樣幫助數據科學家 221.3.4 Jupyter的替代版本 261.4 本書使用的數據集和代碼 271.5 小結 33第2章 數據改寫 342.1 數據科學過程 342.2 使用pandas進行數據加載與預處理 362.2.1 數據快捷加載 362.2.2 處理問題數據 382.2.3 處理大數據集 412.2.4 訪問其他的數據格式 432.2.5 數據預處理 442.2.6 數據選擇 472.3 使用分類數據和文本數據 492.3.1 特殊的數據類型——文本 512.3.2 使用Beautiful Soup抓取網頁 562.4 使用NumPy進行數據處理 572.4.1 NmuPy中的N維數組 572.4.2 NmuPy ndarray對像基礎 582.5 創建NumPy數組 592.5.1 從列表到一維數組 602.5.2 控制內存大小 602.5.3 異構列表 612.5.4 從列表到多維數組 622.5.5 改變數組大小 632.5.6 利用NumPy函數生成數組 642.5.7 直接從文件中獲得數組 652.5.8 從pandas提取數據 652.6 NumPy快速操作和計算 662.6.1 矩陣運算 682.6.2 NumPy數組切片和索引 692.6.3 NumPy數組堆疊 712.7 小結 72第3章 數據科學流程 733.1 EDA簡介 733.2 創建新特征 773.3 維數約簡 783.3.1 協方差矩陣 793.3.2 主成分分析 803.3.3 一種用於大數據的PCA變型——RandomizedPCA 823.3.4 潛在因素分析 833.3.5 線性判別分析 843.3.6 潛在語義分析 853.3.7 獨立成分分析 853.3.8 核主成分分析 853.3.9 t-分布鄰域嵌入算法 873.3.10 受限玻爾茲曼機 873.4 異常檢測和處理 893.4.1 單變量異常檢測 893.4.2 EllipticEnvelope 903.4.3 OneClassSVM 943.5 驗證指標 963.5.1 多標號分類 973.5.2 二值分類 993.5.3 回歸 1003.6 測試和驗證 1003.7 交叉驗證 1033.7.1 使用交叉驗證迭代器 1053.7.2 采樣和自舉方法 1073.8 超參數優化 1083.8.1 建立自定義評分函數 1103.8.2 減少網格搜索時間 1123.9 特征選擇 1133.9.1 基於方差的特征選擇 1133.9.2 單變量選擇 1143.9.3 遞歸消除 1153.9.4 穩定性選擇與基於L1的選擇 1163.10 將所有操作包裝成工作流程 1183.10.1 特征組合和轉換鏈接 1183.10.2 構建自定義轉換函數 1203.11 小結 121第4章 機器學習 1224.1 準備工具和數據集 1224.2 線性和logistic回歸 1244.3 樸素貝葉斯 1264.4 K近鄰 1274.5 非線性算法 1294.5.1 基於SVM的分類算法 1294.5.2 基於SVM的回歸算法 1314.5.3 調整SVM(優化) 1324.6 組合策略 1334.6.1 基於隨機樣本的粘合策略 1344.6.2 基於弱分類器的bagging策略 1344.6.3 隨機子空間和隨機分片 1354.6.4 隨機森林和Extra-Trees 1354.6.5 從組合估計概率 1374.6.6 模型序列——AdaBoost 1384.6.7 梯度樹提升 1394.6.8 XGBoost 1404.7 處理大數據 1424.7.1 作為範例創建一些大數據集 1424.7.2 對容量的可擴展性 1434.7.3 保持速度 1444.7.4 處理多樣性 1454.7.5 隨機梯度下降概述 1474.8 深度學習 1484.9 自然語言處理一瞥 1534.9.1 詞語分詞 1534.9.2 詞干提取 1544.9.3 詞性標注 1544.9.4 命名實體識別 1554.9.5 停止詞 1564.9.6 一個完整的數據科學例子——文本分類 1564.10 無監督學習概覽 1584.11 小結 165第5章 社交網絡分析 1665.1 圖論簡介 1665.2 圖的算法 1715.3 圖的加載、輸出和采樣 1775.4 小結 179第6章 可視化、發現和結果 1806.1 matplotlib基礎介紹 1806.1.1 曲線繪圖 1816.1.2 繪制分塊圖 1826.1.3 數據中的關繫散點圖 1836.1.4 直方圖 1846.1.5 柱狀圖 1856.1.6 圖像可視化 1866.1.7 pandas的幾個圖形示例 1886.1.8 散點圖 1906.1.9 平行坐標 1926.2 封裝matplotlib命令 1936.2.1 Seaborn簡介 1946.2.2 增強EDA性能 1976.3 交互式可視化工具Bokeh 2016.4 高級數據學習表示 2036.4.1 學習曲線 2046.4.2 確認曲線 2056.4.3 隨機森林的特征重要性 2066.4.4 GBT部分依賴關繫圖形 2076.4.5 創建MA-AAS預測服務器 2086.5 小結 212附錄A 增強Python基礎 213 本書首先介紹了如何在Python3.5中安裝必要的數據科學工具箱;然後引導你進入數據改寫和預處理階段,在其中闡述用於數據分析、探索或處理的數據加載、變換和修復等關鍵的數據科學活動;後,通過介紹主要的機器學習算法、圖分析技術和可視化方法來對數據科學進行概述。 [意]阿爾貝托·博斯凱蒂(Alberto Boschetti) 盧卡·馬薩羅(Luca Massaron) 著 於俊偉 譯 作 者 簡 介阿爾貝托·博斯凱蒂(Alberto Boschetti)數據科學家、信號處理和統計學方面的專家。他是通信工程專業博士,現在倫敦居住和工作。他主要從事自然語言處理、行為分析、機器學習和分布式處理等方面的挑戰性工作。他對工作充滿激情,經常參加學術聚會、研討會及其他學術活動,緊跟數據科學技術發展的前沿。 我要感謝我的家人、朋友和同事!同時,也很好感謝開源社區! 盧卡·馬薩羅(Luca Massaron)數據科學家、市場營銷研究者,是多變量統計分析、機器學習和客戶洞察方面的專家。有十年以上解決實際問題的經驗,使用推理、統計、數據挖掘和算法為利益相關者創造了巨大的價值。在意大利等 前 言“千裡之行,始於足下。” ——老前604—531)數據科學屬於一門相對較新的知識領域,它成功融合了線性代數、統計建模、可視化、計算語言學、圖形分析、機器學習、商業智能、數據存儲和檢索等眾多學科。 Python編程語言在過去十年已經征服了科學界,現在是數據科學實踐者不可或缺的工具,也是每一個有抱負的數據科學家的推薦工具。Python為數據分析、機器學習和算法求解提供了快速、可靠、跨平臺、成熟的開發環境。無論之前在數據科學應用中阻止你掌握Python的原因是什麼,我們將通過簡單的分步化解和示例導向的方法幫你解決,幫助你在演示數據集和實際數據集上使用最直接有效的Python工具。 作為第2版,本書對第1版內容進行了更新和擴展。以近期新的Jupyter Notebook(包括可互換內核,一個真正支持多種編程語言的數據科學等
" |