作 者:楊力 著
定 價:49.8
出 版 社:人民郵電出版社
出版日期:2019年03月01日
頁 數:226
裝 幀:簡裝
ISBN:9787115502179
1. 強調實戰2. 覆蓋大數據行業主流技術崗位,緊跟市場與企業步伐3. 來自企業的骨灰級大咖授課4. 內容結構完整,根據循序漸進的認識規律設計章節順序
●第1章 大數據概論 11.1 大數據的學習基礎 11.2 大數據的背景 21.3 對大數據的不同認識 21.3.1 資深編程者眼中的大數據 21.3.2 營銷者和學者眼中的大數據 31.3.3 商家看大數據 41.4 大數據的行業案例 41.4.1 電子地圖 41.4.2 電子商務——用戶畫像 51.5 大數據的基本概念 61.5.1 兩個核心 61.5.2 分布式存儲 61.5.3 分布式計算 71.6 大數據技術生態圈 7本章總結 8本章習題 8第2章 搭建Hadoop分布式集群 92.1 雲平臺 92.1.1 了解雲平臺 92.1.2 安裝VMware軟件 92.2 安裝CentOS 6 102.2.1 安裝CentOS 6 102.2.2 安裝中的關鍵問題 152.2.3 克隆HadoopSlave和HadoopSlave1 162.2.4 安裝SSH客戶端傳輸軟件 182.2.5 安裝Xshell 202.3 Linux繫統配置 232.4 Hadoop的配置部署 39本章總結 47本章習題 47第3章 HDFS入門 483.1 Hadoop分布式文件繫統HDFS 483.1.1 認識HDFS 483.1.2 HDFS的優勢 493.1.3 HDFS局限性 503.1.4 HDFS特性 513.2 HDFS核心設計 523.2.1 數據塊 533.2.2 數據塊復制 533.2.3 數據塊副本的存放策略 543.2.4 機架感知 553.2.5 數據塊的備份數 563.2.6 安全模式 563.2.7 負載均衡 573.2.8 心跳機制 603.3 HDFS體繫結構 603.3.1 主從架構 613.3.2 核心組件功能 613.3.3 數據塊損壞處理 63本章總結 64本章習題 64第4章 HDFS接口 654.1 HDFS命令行接口 654.2 HDFS Java接口 674.2.1 在Linux虛擬機中安裝Eclipse 684.2.2 從Hadoop URL讀取數據 694.2.3 使用FileSystem讀取文件 704.2.4 FSDataInputStream對像隨機讀取 714.2.5 使用FileSystem寫入數據 724.2.6 FSDataOutputStream對像批量寫入 734.2.7 查詢文件狀態FileStatus 744.2.8 創建目錄 754.2.9 刪除文件與目錄 76本章總結 77本章習題 77第5章 HDFS的運行機制 785.1 HDFS中數據流的讀寫 785.1.1 RPC流程 785.1.2 RPC實現模型 795.1.3 RPC Client主要流程 815.1.4 RPC Server實現模型 825.1.5 文件讀取 835.1.6 文件寫入 845.2 HA機制 855.2.1 HDFS的HA機制 855.2.2 集群節點任務規劃 875.2.3 初識ZooKeeper 875.2.4 安裝部署ZooKeeper 895.2.5 格式化ZooKeeper集群 935.2.6 配置Hadoop 945.2.7 啟動JournalNode共享存儲集群 995.2.8 格式化ActiveNameNode 1005.2.9 啟動ZooKeeperFailoverController 1015.2.10 啟動ActiveNameNode 1015.2.11 格式化StandbyNameNode 1025.2.12 啟動所有DataNode節點 1025.2.13 驗證HA的故障自動轉移 1035.3 Federation機制 1055.3.1 初始HDFS Federation機制 1055.3.2 HDFS Federation架構原理 106本章總結 107本章習題 107第6章 Hadoop I/O流操作 1086.1 數據完整性 1086.1.1 數據發生錯誤 1086.1.2 數據的檢測 1096.1.3 數據完整性機制 1096.2 壓縮 1116.2.1 壓縮格式 1116.2.2 Hadoop中對壓縮格式的實現Codec 1116.2.3 壓縮格式是否支持切分 1146.3 序列化 1146.3.1 序列化簡介 1146.3.2 反序列化 1156.3.3 序列化的分布式應用 1156.3.4 初識Hadoop序列化 1156.3.5 Hadoop序列化實現 1166.3.6 接口Comparable & Comparator與WritableComparable & WritableComparator 1176.3.7 Writable類 1236.4 基於文件的數據結構SequenceFile 125本章總結 127本章習題 127第7章 初識MapReduce編程模型 1287.1 MapReduce編程框架 1287.1.1 函數式編程模型 1287.1.2 MapReduce編程模型概念 1297.1.3 MapReduce的設計目標 1307.2 WordCount編程實例 1307.2.1 案例需求 1307.2.2 搭建開發環境Eclipse 1317.2.3 代碼實現 1327.2.4 代碼測試 1357.2.5 案例剖析 1397.3 Hadoop MapReduce架構 1417.3.1 Hadoop MapReduce架構的基本概念 1417.3.2 MapReduce架構核心組件 142本章總結 144本章習題 144第8章 MapReduce應用編程開發 1458.1 MapReduce編程開發 1458.1.1 設計思路 1458.1.2 搜索引擎數據處理實戰 1478.2 MapReduce在集群上的運作 1528.2.1 打包作業 1528.2.2 啟動作業 1548.2.3 通過WebUI查看Job狀態 1548.3 MapReduce的類型與格式 1558.3.1 combiner函數 1558.3.2 MapReduce框架Partitioner分區方法 1578.3.3 MapReduce輸入格式 158本章總結 166本章習題 166第9章 MapReduce編程案例 1679.1 數據去重 1679.1.1 實例表述 1679.1.2 設計思路 1689.1.3 程序代碼 1689.1.4 代碼結果 1699.2 數據排序 1709.2.1 實例表述 1719.2.2 設計思路 1719.2.3 程序代碼 1719.2.4 代碼結果 1739.3 平均成績 1749.3.1 實例表述 1749.3.2 設計思路 1759.3.3 程序代碼 1759.3.4 代碼結果 1779.4 多表關聯 1789.4.1 實例表述 1789.4.2 設計思路 1799.4.3 程序代碼 1799.4.4 代碼結果 1819.5 二次排序 1829.5.1 實例描述 1829.5.2 設計思路 1829.5.3 程序代碼 1829.5.4 代碼結果 185本章總結 186本章習題 186第10章 MapReduce運行機制與YARN平臺 18710.1 剖析MapReduce作業運行機制 18710.1.1 提交作業的方式 18710.1.2 作業的運行組件 18710.1.3 作業的運行解析 18810.2 Shuffle和排序 19010.2.1 Mapper端 19010.2.2 Reducer端 19310.2.3 MapReduce性能調優 19610.3 任務的執行 19710.4 作業的調度 19910.4.1 優選先出調度器 19910.4.2 公平調度器 19910.4.3 計算能力調度器 20010.5 YARN平臺簡介 20010.5.1 YARN的誕生 20010.5.2 YARN的工作原理 20010.6 YARN平臺架構 201本章總結 204本章習題 204第11章 汽車銷售數據統計分析項目 20511.1 數據概況 20511.2 項目實戰 20611.2.1 統計乘用車輛和商用車輛的數量和銷售額分布 20611.2.2 統計某年每個月的汽車銷售數量的比例 20811.2.3 統計某個月份各市區縣的汽車銷售的數量 21011.2.4 用戶數據市場分析——統計買車的男女比例 21311.2.5 統計不同所有權、型號和類型汽車的銷售數量 21611.2.6 統計不同車型的用戶的年齡和性別 21811.2.7 統計分析不同車型銷售數據 21911.2.8 通過不同類型(品牌)汽車銷售情況統計發動機型號和燃料種類 22211.2.9 統計同排量不同品牌汽車的銷售量 224本章總結 226本章習題 226
本書將大數據技術生態圈主流技術框架的應用與發展、搭建Hadoop大數據分布式繫統集群平臺、大數據分布式文件繫統HDFS(Hadoop Distributed File System)、大數據分布式並行計算框架MapReduce、大數據汽車銷售數據統計分析項目5大模塊分為11章內容進行闡述。具體分布情況如下:第1章是大數據概論,介紹大數據的發展背景及基本概念;第2章是搭建Hadoop分布式集群;第3~6章是HDFS分布式文件繫統入門、HDFS接口、HDFS的運行機制、Hadoop I/O流操作;第7~10章是初識MapReduce編程模型、MapReduce應用編程開發、MapReduce編程案例、MapReduce運行機制與YARN平臺;第11章是汽車銷售數據統計分析項目實戰。本書將理論與實踐相結合,介紹了大數據的核心技術,並通過介紹一個企業的開發項目,深入講解大數據技術在實際工作中的應用等
楊力 著
楊力,原普開數據大數據架構師兼教學總監,新奧集團公司雲數據平臺項目首席架構師,京東萬像大數據平臺締造人之一,二六三網絡通信反垃圾郵件繫統平臺項目經理。 現任瀋陽兄弟連教學總監。兄弟連是靠前知名的教育培訓機構,目前已在新三板上市。其出版的細說繫列,市場反映良好。