了得網計算機/網絡_Spark大數據商業實戰三部曲(內核解密商業案例性能調優)(精)

D3章 Spark的靈魂：RDD和DataSet　　本章重點講解Spark的RDD和DataSet。3.1節講解RDD的定義、五大特性剖析及DataSet的定義和內部機制剖析；3.2節對RDD彈性特性七個方面進行解析；3.3節講解RDD依賴關繫，包括窄依賴、寬依賴；3.4節解析Spark中DAG邏輯視圖；3.5節對RDD內部的計算機制及計算過程進行深度解析；3.6節講解Spark RDD容錯原理及其四大核心要點解析；3.7節對Spark RDD中Runtime流程進行解析；3.8節通過一個WordCount實例，解析Spark RDD內部機制；3.9節基於DataSet的代碼，深入分析DataSet一步步轉化成為RDD的過程。3.1 為什麼說RDD和DataSet是Spark的靈魂　　Spark建立在抽像的RDD上，使得它可以用一致的方式處理大數據不同的應用場景，把所有需要處理的數據轉化成為RDD，然後對RDD進行一繫列的算子運算，從而得到結果。RDD是一個容錯的、並行的數據結構，可以將數據存儲到內存和磁盤中，並能控制數據分區，且提供了豐富的API來操作數據。Spark一體化、多元化的解決方案J大地減少了開發和維護的人力成本和部署平臺的物力成本，並在性能方面有J大的優勢，特別適合於迭代計算，如機器學習和圖計算；同時，Spark對Scala和Python交互式shell的支持也J大地方便了通過shell直接使用Spark集群來驗證解決問題的方法，這對於原型開發至關重要，對數據分析人員有著無法拒*的吸引力。3.1.1 RDD的定義及五大特性剖析　　RDD是分布式內存的一個抽像概念，是一種高度受限的共享內存模型，即RDD是隻讀的記錄分區的集合，能橫跨集群所有節點並行計算，是一種基於工作集的應用抽像。　　RDD底層存儲原理：其數據分布存儲於多臺機器上，事實上，每個RDD的數據都以Block的形式存儲於多臺機器上，每個Executor會啟動一個BlockManagerSlave，並管理一部分Block；而Block的元數據由Driver節點上的BlockManagerMaster保存，BlockManagerSlave生成Block後向BlockManagerMaster注冊該Block，BlockManagerMaster管理RDD與Block的關繫，DRDD不再需要存儲的時候，將向BlockManagerSlave發送指令刪除相應的Block。　　BlockManager管理RDD的物理分區，每個BlockJ是節點上對應的一個數據塊，可以存儲在內存或者磁盤上。而RDD中的Partition是一個邏輯數據塊，對應相應的物理塊Block。本質上，一個RDD在代碼中相D於數據的一個元數據結構，存儲著數據分區及其邏輯結構映射關繫，存儲著RDD之前的依賴轉換關繫。　　BlockManager在每個節點上運行管理Block(Driver和Executors)，它提供一個接口檢索本地和遠程的存儲變量，如memory、disk、off-heap。使用BlockManager前必須先初始化。　　BlockManager.scala的部分源碼如下所示。1. private[spark] class BlockManager(2. executorId: String,3. rpcEnv: RpcEnv,4. val master: BlockManagerMaster,5. val serializerManager: SerializerManager,6. val conf: SparkConf,7. memoryManager: MemoryManager,8. mapOutputTracker: MapOutputTracker,9. shuffleManager: ShuffleManager,10. val blockTransferService: BlockTransferService,11. securityManager: SecurityManager,12. numUsableCores: Int)13. extends BlockDataManager with BlockEvictionHandler with Logging {　　　　BlockManagerMaster會持有整個Application的Block的位置、Block所占用的存儲空間等元數據信息，在Spark的Driver的DAGScheduler中，J是通過這些信息來確認數據運行的本地性的。Spark支持重分區，數據通過Spark默認的或者用戶自定義的分區器決定數據塊分布在哪些節點。RDD的物理分區是由Block-Manager管理的，每個BlockJ是節點上對應的一個數據塊，可以存儲在內存或者磁盤。而RDD中的partition是一個邏輯數據塊，對應相應的物理塊Block。本質上，一個RDD在代碼中相D於數據的一個元數據結構（一個RDDJ是一組分區），存儲著數據分區及Block、Node等的映射關繫，以及其他元數據信息，存儲著RDD之前的依賴轉換關繫。分區是一個邏輯概念，Transformation前後的新舊分區在物理上可能是同一塊內存存儲。　　Spark通過讀取外部數據創建RDD，或通過其他RDD執行確定的轉換Transformation操作（如map、union和groubByKey）而創建，從而構成了線性依賴關繫，或者說血統關繫（Lineage），在數據分片丟失時可以從依賴關繫中恢復自己D立的數據分片，對其他數據分片或計算機沒有影響，基本沒有檢查點開銷，使得實現容錯的開銷很低，失效時隻需要重新計算RDD分區，J可以在不同節點上並行執行，而不需要回滾（Roll Back）整個程序。落後任務（即運行很慢的節點）是通過任務備份，重新調用執行進行處理的。　　因為RDD本身支持基於工作集的運用，所以可以使Spark的RDD持久化（persist）到內存中，在並行計算中高效重用。多個查詢時，我們J可以顯性地將工作集中的數據緩存到內存中，為後續查詢提供復用，這J大地提升了查詢的速度。在Spark中，一個RDDJ是一個分布式對像集合，每個RDD可分為多個片（Partitions），而分片可以在集群環境的不同節點上計算。　　RDD作為泛型的抽像的數據結構，支持兩種計算操作算子：Transformation（變換）與Action（行動）。且RDD的寫操作是粗粒度的，讀操作既可以是粗粒度的，也可以是細粒度的。顯示全部信息

商品搜索

商品分类

【醫學】

【各大出版社】