作 者:(加)丹尼爾·茲布裡夫斯基,(加)琳達·帕特納 著 劉紅泉 譯
定 價:139
出 版 社:機械工業出版社
出版日期:2022年08月01日
頁 數:308
裝 幀:平裝
ISBN:9787111712046
本書介紹如何設計既可伸縮又足夠靈活的雲數據平臺,以應對不可避免的技術變化。你將了解雲數據平臺設計的核心組件,以及Spark和Kafka流等關鍵技術。你還將探索如何設置流程來管理基於雲的數據、確保數據的安全,並使用高級分析和BI工具對數據進行分析。本書旨在幫助企業通過現代雲數據平臺使用所有數據的業務集成視圖,並利用優選的分析實踐來驅動預測和數據服務。本書總結了不同的數據消費者如何使用平臺中的數據,並討論了影響雲數據平臺項目成功的常見業務問題。
●前言
致謝
引言
第1章 數據平臺介紹
1.1 從數據倉庫向數據平臺轉變背後的趨勢
1.2 數據倉庫與數據的多樣性、規模和速度
1.2.1 多樣性
1.2.2 規模
1.2.3 速度
1.2.4 所有的V同時出現
1.3 數據湖
1.4 雲來了
1.5 雲、數據湖、數據倉庫:雲數據平臺的出現
1.6 雲數據平臺的構建塊
1.6.1 攝取層
1.6.2 存儲層
1.6.3 處理層
1.6.4 服務層
1.7 雲數據平臺如何處理這三個V
1.7.1 多樣性
1.7.2 規模
1.7.3 速度
1.7.4 另外兩個V
1.8 常見用例
第2章 為什麼是數據平臺而不僅僅是數據倉庫
2.1 雲數據平臺和雲數據倉庫的實踐
2.1.1 近距離觀察數據源
2.1.2 雲數據倉庫—純架構示例
2.1.3 雲數據平臺架構示例
2.2 攝取數據
2.2.1 將數據直接攝取到AzureSynapse
2.2.2 將數據攝取到Azure數據平臺
2.2.3 管理上遊數據源的變化
2.3 處理數據
2.3.1 處理數據倉庫中的數據
2.3.2 處理數據平臺上的數據
2.4 訪問數據
2.5 雲成本方面的考慮
2.6 練習答案
第3章 不斷壯大並利用三巨頭: 、MicrosoftAzure和Google
3.1 雲數據平臺分層架構
3.1.1 數據攝取層
3.1.2 快存儲和慢存儲
3.1.3 處理層
3.1.4數據層
3.1.5 服務層和數據消費者
3.1.6 編排層和ETL覆蓋層
3.2 數據平臺架構中層的重要性
3.3 將雲數據平臺層映射到特定工具
3.3.1 AWS
3.3.2 GoogleCloud
3.3.3 Azure
3.4 開源和商業替代方案
3.4.1 批量數據攝取
3.4.2 流數據攝取和實時分析
3.4.3 編排層
3.5 練習答案
第4章 將數據導入平臺
4.1 數據庫、文件、API和流
4.1.1 關繫型數據庫
4.1.2 文件
4.1.3 通過API的SaaS數據
4.1.4 流
4.2 從關繫型數據庫中攝取數據
4.2.1 使用SQL接口從RDBMS攝取數據
4.2.2 全表攝取
4.2.3 增量表攝取
4.2.4 變更數據捕獲
4.2.5 CDC供應商概述
4.2.6 數據類型轉換
4.2.7 從NoSQL數據庫攝取數據
4.2.8 為RDBMS或NoSQL攝取管道捕獲數據
4.3 從文件中攝取數據
4.3.1 跟蹤已攝取的文件
4.3.2 捕獲文數據
4.4 從流中攝取數據
4.4.1 批量攝取和流攝取的區別
4.4.2 捕獲數據
4.5 從SaaS應用程序攝取數據
4.5.1 沒有標準的API設計方法
4.5.2 沒有標準的方法來處理全數據導出和增量數據導出
4.5.3 結果數據通常是高度嵌套的JSON
4.6 將數據攝取到雲中需要考慮的網絡和安全問題
4.7 練習答案
第5章 組織和處理數據
5.1 在數據平臺中作為單獨的層進行處理
5.2 數據處理階段
5.3 組織你的雲存儲
5.4 通用數據處理步驟
5.4.1 文件格式轉換
5.4.2 重復數據清除
5.4.3 數據質量檢查
5.5 可配置的管道
5.6 練習答案
第6章 實時數據處理和分析
6.1 實時攝取與實時處理
6.2 實時數據處理用例
6.2.1 零售用例:實時攝取
6.2.2 線上遊戲用例:實時攝取和實時處理
6.2.3 實時攝取與實時處理的總結
6.3 什麼時候應該使用實時攝取或實時處理
6.4 為實時使用組織數據
6.4.1 對快存儲的解剖
6.4.2 快存儲是如何擴展的
6.4.3 在實時存儲中組織數據
6.5 通用的實時數據轉換
6.5.1 實時繫統中數據重復的原因
6.5.2 實時繫統中的數據重復清除
6.5.3 在實時管道中轉換消息格式
6.5.4 實時數據質量檢查
6.5.5 將批量數據與實時數據相結合
6.6 用於實時數據處理的雲服務
6.6.1 AWS實時處理服務
6.6.2 GoogleCloud實時處理服務
6.6.3 Azure實時處理服務
6.7 練習答案
第數據層架構
7數據是什麼
7.1.1數據
7.1.2 數據平數據數據
7.2 利數據
7數據模型
7數據層實現選項
7.4數據層作為配置文件的集合
7.4數據數據庫
7.4數據API
7.5 現有的解決方案概述
7.5.數據服務
7.5.2數據層實現
7.6 練習答案
第8章 模式管理
8.1 為什麼要進行模式管理
8.1.1 傳統數據倉庫架構中的模式變化
8.1.2 讀時模式方法
8.2 模式管理方法
8.2.1 模式即契約
8.2.2 數據平臺中的模式管理
8.2.3 監控模式變化
8.3 模式注冊表實現
8.3.1 ApacheAvro模式
8.3.2 現有的模式注冊表實現
8.3.3 模式注冊數據層的一部分
8.4 模式演化場景
……
本書介紹如何設計既可伸縮又足夠靈活的雲數據平臺,以應對不可避免的技術變化。你將了解雲數據平臺設計的核心組件,以及Spark和Kafka流等關鍵技術。你還將探索如何設置流程來管理基於雲的數據、確保數據的安全,並使用高級分析和BI工具對數據進行分析。 本書旨在幫助企業通過現代雲數據平臺使用所有數據的業務集成視圖,並利用優選的分析實踐來驅動預測和數據服務。本書總結了不同的數據消費者如何使用平臺中的數據,並討論了影響雲數據平臺項目成功的常見業務問題。
(加)丹尼爾·茲布裡夫斯基,(加)琳達·帕特納 著 劉紅泉 譯
丹尼爾·茲布裡夫斯基(Danil Zburivsky),他的整個職業生涯都在為全球企業設計和支持大規模數據基礎設施。10多年前,他在IT服務公司Pythian開始了自己的職業生涯,為多家大型互聯網公司管理開源數據庫繫統。他是Hadoop的早期擁護者,在管理一個設計和實現大規模Hadoop分析基礎設施的團隊時,撰寫並出版了一本關於Hadoop集群部署很好實踐的書。他預見到公有雲將對數據基礎設施產生的影響,因此是雲數據服務的早期采用者,並為全球數十家企業在三大公有雲平臺上構建和實現了基於雲的現代數據平臺。