了得網圖書_大數據Hadoop 3.X分布式處理實戰

作者:吳章勇,楊強編

定價:79

出版社:人民郵電出版社

出版日期:2020年04月01日

頁數:384

裝幀:平裝

ISBN:9787115524669

1.版本新。本書采用Hadoop3，版本較新，幫助讀者學習前沿技術。2.項目大。深度剖析日志分析、推薦繫統、垃圾消息三大企業級項目實戰案例。讀者稍加改造，即可在生產環境中使用。3.內容全。詳細介紹HDFS、MapReduce、HBase、Hive、Sqoop、Spark 等主流大數據工具。4.資源多。贈送12小時視頻講解和全書配套範例源碼。5.在線答疑。本書提供答疑球球群，在線答疑。群號：243363382。

●第一篇Hadoop技術1
第1章大數據與Hadoop概述03
1.1大數據概述03
1.1.1大數據的定義03
1.1.2大數據行業的發展04
1.1.3大數據的典型應用04
1.2Hadoop概述06
1.2.1Hadoop簡介06
1.2.2Hadoop生態子項目07
1.2.3Hadoop 3.X的新特性09
1.3小結09
1.4配套視頻10
第2章Hadoop偽分布式安裝11
2.1Hadoop偽分布式安裝前的準備11
2.1.1安裝VMware11
2.1.2安裝CentOS 712
2.1.3配置CentOS 7：接受協議15
2.1.4配置CentOS 7：登錄繫統16
2.1.5配置CentOS 7：設置IP16
2.1.6配置CentOS 7：修改主機名17
2.1.7配置CentOS 7：配置hosts文件18
2.1.8配置CentOS 7：關閉防火牆18
2.1.9配置CentOS 7：禁用selinux19
2.1.10配置CentOS 7：設置SSH免密碼登錄19
2.1.11配置CentOS 7：重啟20
2.2Hadoop偽分布式安裝21
2.2.1安裝WinSCP21
2.2.2安裝PieTTY22
2.2.3安裝JDK23
2.2.4安裝Hadoop24
2.3Hadoop驗證28
2.3.1格式化28
2.3.2啟動Hadoop29
2.3.3查看Hadoop相關進程29
2.3.4瀏覽文件30
2.3.5瀏覽器訪問30
2.4小結31
2.5配套視頻31
第3章Hadoop分布式文件繫統——HDFS32
3.1HDFS原理32
3.1.1HDFS的假設前提和設計目標32
3.1.2HDFS的組件33
3.1.3HDFS數據復制36
3.1.4HDFS健壯性36
3.1.5HDFS數據組織38
3.2HDFS Shell39
3.2.1Hadoop文件操作命令39
3.2.2Hadoop繫統管理命令44
3.3HDFS Java API46
3.3.1搭建Linux下Eclipse開發環境46
3.3.2為Eclipse安裝Hadoop插件47
3.3.3HDFS Java API示例49
3.4小結56
3.5配套視頻56
第4章分布式計算框架MapReduce57
4.1MapReduce原理57
4.1.1MapReduce概述57
4.1.2MapReduce的主要功能59
4.1.3MapReduce的處理流程59
4.2MapReduce編程基礎61
4.2.1內置數據類型介紹61
4.2.2WordCount入門示例63
4.2.3MapReduce分區與自定義數據類型67
4.3MapReduce綜合實例——數據去重71
4.3.1實例描述71
4.3.2設計思路72
4.3.3程序代碼73
4.3.4運行結果74
4.4MapReduce綜合實例——數據排序75
4.4.1實例描述75
4.4.2設計思路76
4.4.3程序代碼77
4.4.4運行結果79
4.5MapReduce綜合實例——求學生平均成績79
4.5.1實例描述79
4.5.2設計思路80
4.5.3程序代碼81
4.5.4運行結果83
4.6MapReduce綜合實例——WordCount高級示例84
4.7小結87
4.8配套視頻87
第二篇Hadoop 生態繫統的主要大數據工具整合應用89
第5章NoSQL數據庫HBase91
5.1HBase原理91
5.1.1HBase概述91
5.1.2HBase核心概念92
5.1.3HBase的關鍵流程95
5.2HBase偽分布式安裝97
5.2.1安裝HBase的前提條件98
5.2.2解壓並配置環境變量98
5.2.3配置HBase參數99
5.2.4驗證HBase100
5.3HBase Shell103
5.3.1HBase Shell常用命令103
5.3.2HBase Shell綜合示例109
5.3.3HBase Shell的全部命令112
5.4小結114
5.5配套視頻114
第6章HBase高級特性115
6.1HBase Java API115
6.1.1HBase Java API介紹115
6.1.2HBase Java API示例120
6.2HBase與MapReduce的整合130
6.2.1HBase與MapReduce的整合概述130
6.2.2HBase與MapReduce的整合示例130
6.3小結134
6.4配套視頻134
第7章分布式數據倉庫Hive135
7.1Hive概述135
7.1.1Hive的定義135
7.1.2Hive的設計特征136
7.1.3Hive的體繫結構136
7.2Hive偽分布式安裝137
7.2.1安裝Hive的前提條件137
7.2.2解壓並配置環境變量138
7.2.3安裝MySQL139
7.2.4配置Hive143
7.2.5驗證Hive145
7.3Hive QL的基礎功能146
7.3.1操作數據庫146
7.3.2創建表147
7.3.3數據準備150
7.4Hive QL的高級功能153
7.4.1select查詢154
7.4.2函數154
7.4.3統計函數154
7.4.4distinct去除重復值155
7.4.5limit返回記錄的條數156
7.4.6為列名取別名156
7.4.7case when then多路分支156
7.4.8like模糊查詢157
7.4.9group by分組統計157
7.4.10having過濾分組統計結果157
7.4.11inner join內聯接158
7.4.12left outer join和right outer join外聯接159
7.4.13full outer join外部聯接159
7.4.14order by排序160
7.4.15where查找160
7.5小結161
7.6配套視頻162
第8章Hive高級特性163
8.1Beeline163
8.1.1使用Beeline的前提條件163
8.1.2Beeline的基本操作164
8.1.3Beeline的參數選項與管理命令166
8.2Hive JDBC167
8.2.1運行Hive JDBC的前提條件167
8.2.2Hive JDBC基礎示例167
8.2.3Hive JDBC綜合示例169
8.3Hive函數174
8.3.1內置函數174
8.3.2自定義函數175
8.4Hive表的高級特性181
8.4.1外部表181
8.4.2分區表182
8.5小結185
8.6配套視頻185
第9章數據轉換工具Sqoop186
9.1Sqoop概述與安裝186
9.1.1Sqoop概述186
9.1.2Sqoop安裝187
9.2Sqoop導入數據189
9.2.1更改MySQL的root用戶密碼189
9.2.2準備數據190
9.2.3導入數據到HDFS191
9.2.4查看HDFS數據192
9.2.5導入數據到Hive193
9.2.6查看Hive數據193
9.3Sqoop導出數據194
9.3.1準備MySQL表194
9.3.2導出數據到MySQL194
9.3.3查看MySQL中的導出數據195
9.4深入理解Sqoop的導入與導出196
9.5小結203
9.6配套視頻203
第10章內存計算框架Spark204
10.1Spark入門204
10.1.1Spark概述204
10.1.2Spark偽分布式安裝205
10.1.3由Java到Scala209
10.1.4Spark的應用212
10.1.5Spark入門示例217
10.2Spark Streaming220
10.2.1Spark Streaming概述220
10.2.2Spark Streaming示例221
10.3Spark SQL224
10.3.1Spark SQL概述224
10.3.2spark-sql命令225
10.3.3使用Scala操作Spark SQL227
10.4小結228
10.5配套視頻229
第11章Hadoop及其常用組件集群安裝230
11.1Hadoop集群安裝230
11.1.1安裝並配置CentOS230
11.1.2安裝JDK236
11.1.3安裝Hadoop237
11.1.4遠程復制文件241
11.1.5驗證Hadoop242
11.2HBase集群安裝244
11.2.1解壓並配置環境變量244
11.2.2配置HBase參數245
11.2.3遠程復制文件246
11.2.4驗證HBase247
11.3Hive集群安裝249
11.3.1解壓並配置環境變量249
11.3.2安裝MySQL250
11.3.3配置Hive252
11.3.4驗證Hive254
11.4Spark集群安裝254
11.4.1安裝Scala254
11.4.2安裝Spark254
11.4.3配置Spark255
11.4.4遠程復制文件256
11.4.5驗證Spark257
11.5小結259
11.6配套視頻259
第三篇實戰篇261
第12章海量Web日志分析繫統263
12.1案例介紹263
12.1.1分析Web日志數據的目的263
12.1.2Web日志分析的典型應用場景265
12.1.3日志的不確定性265
12.2案例分析266
12.2.1日志分析的KPI267
12.2.2案例繫統結構267
12.2.3日志分析方法268
12.3案例實現273
12.3.1定義日志相關屬性字段273
12.3.2數據合法標識（在分析時是否被過濾）274
12.3.3解析日志274
12.3.4日志合法性過濾275
12.3.5頁面訪問量統計的實現276
12.3.6頁面獨立IP訪問量統計的實現278
12.3.7用戶單位時間PV的統計實現280
12.3.8用戶訪問設備信息統計的實現282
12.4小結283
12.5配套視頻283
第13章電商商品推薦繫統284
13.1案例介紹284
13.1.1推薦算法284
13.1.2案例的意義285
13.1.3案例需求285
13.2案例設計286
13.2.1協同過濾286
13.2.2基於用戶的協同過濾算法289
13.2.3基於物品的協同過濾算法292
13.2.4算法實現設計295
13.2.5推薦步驟與架構設計298
13.3案例實現298
13.3.1實現HDFS文件操作工具299
13.3.2實現任務步驟1：彙總用戶對所有物品的評分信息302
13.3.3實現任務步驟2：獲取物品同現矩陣305
13.3.4實現任務步驟3：合並同現矩陣和評分矩陣307
13.3.5實現任務步驟4：計算推薦結果310
13.3.6實現統一的任務調度316
13.4小結317
13.5配套視頻317
第14章分布式垃圾消息識別繫統318
14.1案例介紹318
14.1.1案例內容318
14.1.2案例應用的主體結構319
14.1.3案例運行結果321
14.2RPC遠程方法調用的設計322
14.2.1Java EE的核心優勢：RMI322
14.2.2RMI的基本原理324
14.2.3自定義RPC組件分析325
14.3數據分析設計328
14.3.1垃圾消息識別算法——樸素貝葉斯算法328
14.3.2進行分布式貝葉斯分類學習時的全局計數器330
14.3.3數據清洗分析結果存儲332
14.4案例實現333
14.4.1自定義的RPC組件服務端相關實現333
14.4.2自定義的RPC組件客戶端相關實現342
14.4.3業務服務器實現347
14.4.4業務客戶端實現367
14.5小結370
14.6配套視頻370

本書以實戰開發為原則，以Hadoop3.X生態繫統內的主要大數據工具整合應用及項目開發為主線，通過Hadoop大數據開發中常見的11個典型模塊和3個完整項目案例，詳細介紹HDFS、MapReduce、HBase、Hive、Sqoop、Spark等主流大數據工具的整合使用。本書附帶資源包括本書核心內容的教學視頻，本書所涉及的源代碼、參考資料等。
全書共14章，分為3篇，涵蓋的主要內容有Hadoop及其生態組件偽分布式安裝和接近分布式安裝、分布式文件繫統HDFS、分布式計算框架MapReduce、NoSQL數據庫HBase、分布式數據倉庫Hive、數據轉換工具Sqoop、內存計算框架Spark、海量Web日志分析繫統、電商商品推薦繫統、分布式垃圾消息識別繫統等。
本書內容豐富、案例典型、實用性強，適合各個層次希望學習大數據開發技術的人員閱讀，尤其適合有一定Java基礎而等

商品搜索

商品分类

【醫學】

【各大出版社】