作 者:劉軍 林文輝 方澄 著
定 價:49
出 版 社:清華大學出版社
出版日期:2016年09月01日
頁 數:199
裝 幀:簡裝
ISBN:9787302449959
本書以時下很為流行的Hadoop所存在的缺陷為出發點,深入淺出地介紹了下一代大數據處理核心技術Spark的優勢和必要性,並以很簡潔的指引步驟展示了如何在10分鐘內建立一個Spark大數據處理環境。在此基礎上,本書以圖文並茂和豐富的示例代碼講解的形式繫統性地揭示了Spark的運行原理、算子使用、算法設計和優化手段,為讀者提供了一個快速由淺入深掌握Spark基礎能力和不錯技巧的參考書籍。 本書共六章,涉及的主題主要包括大數據處理技術從Hadoop發展到Spark的必然性、快速體驗Spark的指引、S等
●第1章從Hadoop到Spark
●1.1Hadoop——大數據時代的火種
●1.1.1大數據的由來
●1.1.2Google解決大數據計算問題的方法
●1.1.3Hadoop的由來與發展
●1.2Hadoop的局限性
●1.2.1Hadoop運行機制
●1.2.2Hadoop的性能問題
●1.2.3針對Hadoop的改進
●1.3大數據技術新星——Spark
●1.3.1Spark的出現與發展
●1.3.2Spark協議族
●1.3.3Spark的應用及優勢
●第2章體驗Spark
●2.1安裝和使用Spark
●2.1.1安裝Spark
●2.1.2了解Spark目錄結構
●2.1.3使用SparkShell
●2.2編寫和運行Spark程序
●2.2.1安裝Scala插件
●部分目錄
本書以時下很為流行的Hadoop所存在的缺陷為出發點,深入淺出地介紹了下一代大數據處理核心技術Spark的優勢和必要性,並以很簡潔的指引步驟展示了如何在10分鐘內建立一個Spark大數據處理環境。在此基礎上,本書以圖文並茂和豐富的示例代碼講解的形式繫統性地揭示了Spark的運行原理、算子使用、算法設計和優化手段,為讀者提供了一個快速由淺入深掌握Spark基礎能力和不錯技巧的參考書籍。本書共六章,涉及的主題主要包括大數據處理技術從Hadoop發展到Spark的必然性、快速體驗Spark的指引、Spark架構和原理、RDD算子使用方法和示例、Spark算法設計實例、Spark程序優化方法。本書適合需要使用Spark進行大數據處理的程序員、架構師和產品經理作為技術參考和培訓資料,亦可作為高校研究生和本科生教材。
劉軍 林文輝 方澄 著
劉軍,男,1976年生人,博士,副教授,碩士生導師,北京郵電大學數據科學中心主任。2003年至2007年任職於IBM中國研究院,擔任不錯研究員及部門經理,建立IBM中國研究院電信融合網絡管理研究方向,主持研發Websphere及Tivoli電信產品線中多項關鍵技術,期間發表多篇靠前會議及刊物論文,並申請獲得多項美國專利。2007年至2012年創辦歡城(北京)科技有限公司,開創中國無端網絡遊戲產業,並擔任中國軟件協會網頁遊戲專業委員會委員。公司產品多次榮獲靠前互聯網業界獎項,2008年獲中國互聯網協會“運營價值Webgame”獎項。2012年至今在北京郵電大學信息與通信工程學院任教,研究方向為電等