了得網圖書_大規模數據分析和建模基於Spark與R

作者:(美)哈維爾·盧拉辛,(美)凱文·郭,(美)埃德加·魯伊斯著魏博譯

定價:89

出版社:機械工業出版社

出版日期:2020年07月01日

頁數:260

裝幀:平裝

ISBN:9787111661016

如果你和大多數R語言用戶一樣，那你肯定喜歡統計學，也能夠深入理解統計學。但是隨著組織內部不斷收集大量數據，添加Apache Spark這類工具就變得理所當然。在本書中，數據科學家和使用大規模數據應用的專業人員會學到如何使用Spark和R解決大數據和大計算問題。作者會展示如何將Spark和R結合起來進行大數據分析。本書涵蓋相關的數據科學話題、聚類計算，以及高級用戶會感興趣的問題。?在Apache Spark環境下，使用R來分析、探索、轉換、可視化數據。?構建統計模型來提取信息並預測輸出等

●序言1
前言3
第1章引言9
1.1 概述10
1.2 Hadoop10
1.3 Spark12
1.4 R16
1.5 sparklyr19
1.6 小結20
第2章開始21
2.1 概述21
2.2 預備操作22
2.2.1 安裝sparklyr23
2.2.2 安裝Spark23
2.3 連接24
2.4 使用Spark25
2.4.1 網絡接口25
2.4.2 分析28
2.4.3 建模28
2.4.4 數據30
2.4.5 擴展30
2.4.6 分布式R31
2.4.7 流式數據31
2.4.8 日志32
2.5 斷開連接33
2.6 使用RStudio33
2.7 資源35
2.8 小結36
第3章分析37
3.1 概述37
3.2 數據導入40
3.3 數據整理41
3.3.1 內置函數42
3.3.2 相關性43
3.4 可視化45
3.4.1 使用ggplot246
3.4.2 使用dbplot47
3.5 建模49
3.6 溝通51
3.7 小結54
第4章建模56
4.1 概述56
4.2 探索性數據分析58
4.3 特征工程65
4.4 監督式學習68
4.4.1 廣義線性回歸72
4.4.2 其他模型73
4.5 非監督式學習73
4.5.1 數據準備74
4.5.2 主題建模75
4.6 小結77
第5章管道操作78
5.1 概述78
5.2 創建工作80
5.3 用例81
5.4 操作模式83
5.5 交互性84
5.6 部署86
5.6.1 批打分87
5.6.2 實時打分88
5.7 小結90
第6章集群92
6.1 概述92
6.2 本地化94
6.2.1 管理器94
6.2.2 發行版98
6.3 雲端100
6.3.1 亞馬遜101
6.3.2 Databricks102
6.3.3 谷歌103
6.3.4 IBM105
6.3.5 微軟106
6.3.6 Qubole107
6.4 Kubernetes107
6.5 工具108
6.5.1 RStudio108
6.5.2 Jupyter109
6.5.3 Livy110
6.6 小結111
第7章連接112
7.1 概述112
7.1.1 邊緣節點114
7.1.2 Spark主目錄114
7.2 本地模式115
7.3 單機模式116
7.4 YARN116
7.4.1 YARN客戶端117
7.4.2 YARN集群117
7.5 Livy118
7.6 Mesos120
7.7 Kubernetes121
7.8 雲模式121
7.9 批量模式122
7.10 工具123
7.11 多次連接123
7.12 故障排除124
7.12.1 記錄日志124
7.12.2 Spark Submit124
7.12.3 Windows126
7.13 小結126
第8章數據127
8.1 概述127
8.2 讀取數據129
8.2.1 路徑129
8.2.2 模式130
8.2.3 內存131
8.2.4 列132
8.3 寫入數據133
8.4 復制數據134
8.5 文件格式135
8.5.1 CSV136
8.5.2 JSON137
8.5.3 Parquet138
8.5.4 其他139
8.6 文件繫統140
8.7 存儲繫統140
8.7.1 Hive141
8.7.2 Cassandra142
8.7.3 JDBC142
8.8 小結143
第9章調試144
9.1 概述144
9.1.1 計算圖146
9.1.2 時間線148
9.2 配置148
9.2.1 連接設置150
9.2.2 提交設置151
9.2.3 運行時設置152
9.2.4 sparklyr設置153
9.3 分區156
9.3.1 隱式分區156
9.3.2 顯式分區157
9.4 緩存158
9.4.1 檢查點159
9.4.2 內存159
9.5 重洗160
9.6 序列化161
9.7 配置文件161
9.8 小結162
第10章擴展163
10.1 概述163
10.2 H2O165
10.3 圖模型169
10.4 XGBoost173
10.5 深度學習176
10.6 基因組學179
10.7 空間數據181
10.8 故障排除183
10.9 小結183
第11章分布式R185
11.1 概述185
11.2 用例187
11.2.1 定制解析器188
11.2.2 分區建模189
11.2.3 網格搜索191
11.2.4 Web API192
11.2.5 模擬193
11.3 分區194
11.4 分組195
11.5 列196
11.6 context參數197
11.7 函數198
11.8 程序包199
11.9 集群需求200
11.9.1 安裝R200
11.9.2 Apache Arrow201
11.10 故障排除203
11.10.1 工作節點日志204
11.10.2 解決超時205
11.10.3 檢查分區206
11.10.4 調試工作節點206
11.11 小結207
第12章數據流208
12.1 概述208
12.2 轉換211
12.2.1 分析212
12.2.2 建模213
12.2.3 管道214
12.2.4 分布式R215
12.3 Kafka216
12.4 Shiny218
12.5 小結220
第13章社區貢獻221
13.1 概述221
13.2 Spark API223
13.3 Spark擴展224
13.4 使用Scala代碼226
13.5 小結228
附錄A 補充參考代碼229

這本書的目的是幫助所有人通過R使用Apache Spark。第1章~第5章，簡單地介紹了如何大規模執行數據科學和機器學習項目。第6~9章介紹了使用Spark進行集群計算中令人激動的基本概念。第10章~第13章涵蓋一些高級主題，包括分布式R、Streaming和社區貢獻等。

商品搜索

商品分类

【醫學】

【各大出版社】