[ 收藏 ] [ 繁体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

Spark大數據商業實戰三部曲(內核解密商業案例性能調優)(精)
該商品所屬分類:計算機/網絡 -> 網絡技術
【市場價】
2540-3683
【優惠價】
1588-2302
【介質】 book
【ISBN】9787302489627
【折扣說明】一次購物滿999元台幣免運費+贈品
一次購物滿2000元台幣95折+免運費+贈品
一次購物滿3000元台幣92折+免運費+贈品
一次購物滿4000元台幣88折+免運費+贈品
【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
版本正版全新電子版PDF檔
您已选择: 正版全新
溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
*. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
*. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
*. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
內容介紹



  • 出版社:清華大學
  • ISBN:9787302489627
  • 作者:編者:王家林//段智華//夏陽
  • 頁數:1143
  • 出版日期:2018-02-01
  • 印刷日期:2018-02-01
  • 包裝:精裝
  • 開本:16開
  • 版次:1
  • 印次:1
  • 字數:1815千字
  • 基於*新的Spark2.2.X版本,分為內核解密篇,商業案例篇,性能調優篇,共31章,學習過程中有任何疑問,可加入QQ群,有專業人員答疑解惑。
  • 《Spark大數據商業實戰三部曲:內核解密|商業案例|性能調優》基於Spark 2.2.X,以Spark商業案例實戰和Spark在生產環境下幾乎所有類型的性能調優為核心,以Spark內核解密為基石,分為上篇、中篇、下篇,對企業生產環境下的Spark商業案例與性能調優抽絲剝繭地進行剖析。上篇基於Spark源碼,從一個動手實戰案例入手,循序漸進地全面解析了Spark 2.2新特性及Spark內核源碼;中篇選取Spark開發中最具有代表的經典學習案例,深入淺出地介紹,在案例中綜合應用Spark的大數據技術;下篇性能調優內容基本完全覆蓋了Spark在生產環境下的所有調優技術。
  • 王家林,中國有名的Spark培訓專家,ApacheSpark、Android技術中國區布道師,DT大數據夢工廠創始人和首席專家,Android軟硬整合專家。深入研究了Spark中0.5.0到2.2.1中的共30個版本的Spark源碼,尤其撞長Spark在生產環境下各種類型和場景的故陣排除和解決。目前致力於大數據Spark和人工智能TensorFlow的深度S合。 段智華,就職於中國電信股份有限公司上海分公司,繫統架構師,CSDNW客專家。專注於Spark大數據技術研發及準廣,跟隨Spark核心源碼技術的發展,深入研究Spark2.1.1版本及Spark2.2.0版本的源碼優化,對Spa......
  • 上篇 內核解密
    第1章 電光石火間體驗Spark 2.2開發實戰
    1.1 通過RDD實戰電影點評繫統入門及源碼閱讀
    1.1.1 Spark核心概念圖解
    1.1.2 通過RDD實戰電影點評繫統案例
    1.2 通過DataFrame和DataSet實戰電影點評繫統
    1.2.1 通過DataFrame實戰電影點評繫統案例
    1.2.2 通過DataSet實戰電影點評繫統案例
    1.3 Spark 2.2源碼閱讀環境搭建及源碼閱讀體驗
    第2章 Spark 2.2技術及原理
    2.1 Spark 2.2綜述
    2.1.1 連續應用程序
    2.1.2 新的
    2.2 Spark 2.2
    2.2.1 第二代Tungsten引擎
    2.2.2 SparkSe
    2.2.3 累加器
    2.3 Spark 2.
    2.3.1 Spar
    2.3.2 DataFrame和Datas
    2.3.3 Timed Wi
    2.4 Spark 2.2 Stre
    2.4.1 Structured Stre
    2.4.2 增量輸出模式
    2.5 Spark 2.2
    2.5.1 基於DataFrame的Machine Learni
    2.5.2 R的分布式算法
    2.6 Spark 2.2 Gr
    第3章 Spark的靈魂:RDD和D
    3.1 為什麼說RDD和DataSet是Spark的靈魂
    3.1.1 RDD的定義及五大特性剖析
    3.1.2 DataSet的定義及內部機制剖析
    3.2 RDD彈性特性七個方面解析
    3.3 RDD依賴關繫
    3.3.1 窄依賴解析
    3.3.2 寬依賴解析
    3.4 解析Spark中的DAG邏輯視圖
    3.4.1 DAG生成的機制
    3.4.2 DAG邏輯視圖解析
    3.5 RDD內部的計算機制
    3.5.1 Task解析
    3.5.2 計算過程深度解析
    3.6 Spark RDD容錯原理及其四大核心要點解析
    3.6.1 Spark RDD容錯原理
    3.6.2 RDD容錯的四大核心要點
    3.7 Spark RDD中Runtime流程解析
    3.7.1 Runtime架構圖
    3.7.2 生命周期
    3.8 通過WordCount實戰解析Spark RDD內部機制
    3.8.1 Spark WordCount動手實踐
  • D3章 Spark的靈魂:RDD和DataSet  本章重點講解Spark的RDD和DataSet。3.1節講解RDD的定義、五大特性剖析及DataSet的定義和內部機制剖析;3.2節對RDD彈性特性七個方面進行解析;3.3節講解RDD依賴關繫,包括窄依賴、寬依賴;3.4節解析Spark中DAG邏輯視圖;3.5節對RDD內部的計算機制及計算過程進行深度解析;3.6節講解Spark RDD容錯原理及其四大核心要點解析;3.7節對Spark RDD中Runtime流程進行解析;3.8節通過一個WordCount實例,解析Spark RDD內部機制;3.9節基於DataSet的代碼,深入分析DataSet一步步轉化成為RDD的過程。3.1 為什麼說RDD和DataSet是Spark的靈魂  Spark建立在抽像的RDD上,使得它可以用一致的方式處理大數據不同的應用場景,把所有需要處理的數據轉化成為RDD,然後對RDD進行一繫列的算子運算,從而得到結果。RDD是一個容錯的、並行的數據結構,可以將數據存儲到內存和磁盤中,並能控制數據分區,且提供了豐富的API來操作數據。Spark一體化、多元化的解決方案J大地減少了開發和維護的人力成本和部署平臺的物力成本,並在性能方面有J大的優勢,特別適合於迭代計算,如機器學習和圖計算;同時,Spark對Scala和Python交互式shell的支持也J大地方便了通過shell直接使用Spark集群來驗證解決問題的方法,這對於原型開發至關重要,對數據分析人員有著無法拒*的吸引力。3.1.1 RDD的定義及五大特性剖析  RDD是分布式內存的一個抽像概念,是一種高度受限的共享內存模型,即RDD是隻讀的記錄分區的集合,能橫跨集群所有節點並行計算,是一種基於工作集的應用抽像。  RDD底層存儲原理:其數據分布存儲於多臺機器上,事實上,每個RDD的數據都以Block的形式存儲於多臺機器上,每個Executor會啟動一個BlockManagerSlave,並管理一部分Block;而Block的元數據由Driver節點上的BlockManagerMaster保存,BlockManagerSlave生成Block後向BlockManagerMaster注冊該Block,BlockManagerMaster管理RDD與Block的關繫,DRDD不再需要存儲的時候,將向BlockManagerSlave發送指令刪除相應的Block。  BlockManager管理RDD的物理分區,每個BlockJ是節點上對應的一個數據塊,可以存儲在內存或者磁盤上。而RDD中的Partition是一個邏輯數據塊,對應相應的物理塊Block。本質上,一個RDD在代碼中相D於數據的一個元數據結構,存儲著數據分區及其邏輯結構映射關繫,存儲著RDD之前的依賴轉換關繫。  BlockManager在每個節點上運行管理Block(Driver和Executors),它提供一個接口檢索本地和遠程的存儲變量,如memory、disk、off-heap。使用BlockManager前必須先初始化。  BlockManager.scala的部分源碼如下所示。1. private[spark] class BlockManager(2. executorId: String,3. rpcEnv: RpcEnv,4. val master: BlockManagerMaster,5. val serializerManager: SerializerManager,6. val conf: SparkConf,7. memoryManager: MemoryManager,8. mapOutputTracker: MapOutputTracker,9. shuffleManager: ShuffleManager,10. val blockTransferService: BlockTransferService,11. securityManager: SecurityManager,12. numUsableCores: Int)13. extends BlockDataManager with BlockEvictionHandler with Logging {    BlockManagerMaster會持有整個Application的Block的位置、Block所占用的存儲空間等元數據信息,在Spark的Driver的DAGScheduler中,J是通過這些信息來確認數據運行的本地性的。Spark支持重分區,數據通過Spark默認的或者用戶自定義的分區器決定數據塊分布在哪些節點。RDD的物理分區是由Block-Manager管理的,每個BlockJ是節點上對應的一個數據塊,可以存儲在內存或者磁盤。而RDD中的partition是一個邏輯數據塊,對應相應的物理塊Block。本質上,一個RDD在代碼中相D於數據的一個元數據結構(一個RDDJ是一組分區),存儲著數據分區及Block、Node等的映射關繫,以及其他元數據信息,存儲著RDD之前的依賴轉換關繫。分區是一個邏輯概念,Transformation前後的新舊分區在物理上可能是同一塊內存存儲。  Spark通過讀取外部數據創建RDD,或通過其他RDD執行確定的轉換Transformation操作(如map、union和groubByKey)而創建,從而構成了線性依賴關繫,或者說血統關繫(Lineage),在數據分片丟失時可以從依賴關繫中恢復自己D立的數據分片,對其他數據分片或計算機沒有影響,基本沒有檢查點開銷,使得實現容錯的開銷很低,失效時隻需要重新計算RDD分區,J可以在不同節點上並行執行,而不需要回滾(Roll Back)整個程序。落後任務(即運行很慢的節點)是通過任務備份,重新調用執行進行處理的。  因為RDD本身支持基於工作集的運用,所以可以使Spark的RDD持久化(persist)到內存中,在並行計算中高效重用。多個查詢時,我們J可以顯性地將工作集中的數據緩存到內存中,為後續查詢提供復用,這J大地提升了查詢的速度。在Spark中,一個RDDJ是一個分布式對像集合,每個RDD可分為多個片(Partitions),而分片可以在集群環境的不同節點上計算。  RDD作為泛型的抽像的數據結構,支持兩種計算操作算子:Transformation(變換)與Action(行動)。且RDD的寫操作是粗粒度的,讀操作既可以是粗粒度的,也可以是細粒 度的。 顯示全部信息
 
網友評論  我們期待著您對此商品發表評論
 
相關商品
在線留言 商品價格為新臺幣
關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
返回頂部