| | | 大數據猩球(海量數據處理實踐指南) | 該商品所屬分類:計算機/網絡 -> 數據庫 | 【市場價】 | 625-905元 | 【優惠價】 | 391-566元 | 【介質】 | book | 【ISBN】 | 9787121294181 | 【折扣說明】 | 一次購物滿999元台幣免運費+贈品 一次購物滿2000元台幣95折+免運費+贈品 一次購物滿3000元台幣92折+免運費+贈品 一次購物滿4000元台幣88折+免運費+贈品
| 【本期贈品】 | ①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
| |
版本 | 正版全新電子版PDF檔 | 您已选择: | 正版全新 | 溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。*. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。 *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。 *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。 | | | | 內容介紹 | |
-
出版社:電子工業
-
ISBN:9787121294181
-
作者:(美)菲利普·克羅默//拉塞爾·賈米|譯者:唐李洋
-
頁數:192
-
出版日期:2016-08-01
-
印刷日期:2016-08-01
-
包裝:平裝
-
開本:16開
-
版次:1
-
印次:1
-
字數:314千字
-
菲利普·克羅默、拉塞爾·賈米著的《大數據猩 球(海量數據處理實踐指南)》以實用的、可操作的視 角解釋了大數據。采用黑猩猩和大像的隱喻,基於棒 球統計數據集,使用Apache Hadoop和Pig等工具展示 了如何處理大規模數據。此外,通過處理真實數據、 解決現實問題,作者還以實例的形式總結了一些實踐 分析模式,為有創造力的分析人員提供了最強大、最 有價值的方法。 本書特別適合那些需要大數據工具箱來解決實際 問題的人們。
-
前言 **部分 入門:理論和工具 第1章 Hadoop基礎 黑猩猩和大像創業 Map-Only作業:逐個處理記錄 PigLatinMap-Only作業 創建DockerHadoop集群 運行作業 小結 第2章 MapReduce 黑猩猩和大像拯救聖誕節 玩具島上的麻煩 黑猩猩把信件變成帶標簽的玩具表 小像將玩具表送到適當的工作臺 示例:馴鹿遊戲 UFO數據 根據報道延遲對UFO目擊分組 Mapper Reducer 數據可視化 馴鹿小結 Hadoop與傳統數據庫 MapReduce俳句 Map階段簡述 Group-Sort階段簡述 Reduce階段簡述 小結 第3章 棒球數據集速覽 數據 縮略詞和術語 規則和目標 評價指標 小結 第4章 Pig入門 Pig幫助Hadoop處理數據表,而不是記錄 維基百科訪問數統計 基本數據操作 控制操作 管道操作 結構化操作 LOAD定位並描述你的數據 簡單類型 復雜類型1,元組:帶類型字段的固長序列 復雜類型2,袋:元組的無限集合 定義變換後的記錄模式 STORE將數據寫入磁盤 輔助命令 DESCRIBE DUMP SAMPLE ILLUSTRATE EXPLAIN Pig函數 Piggybank ApacheDataFu 小結 第二部分 戰術:分析模式 第5章 Map-Only操作 模式用法 清除數據 選擇滿足條件的記錄:FILTER等 選擇滿足多個條件的記錄 選擇或丟棄空值記錄 選擇匹配正則表達式的記錄(MATCHES) 根據固定的值列表匹配記錄 按字段名投影字段 使用FOREACH選擇、重命名和重排序字段 抽取記錄的隨機樣本 按key抽取一致性樣本 僅加載部分 part-Files實現粗略抽樣 使用LIMIT選擇固定數量的記錄 其他數據消除模式 變換記錄 使用FOREACH逐個變換記錄 嵌套FOREACH允許使用中間表達式 根據模版格式化字符串 使用復雜類型組裝字面值 操縱字段的類型 整型、浮點型和取整 從外部包調用用戶自定義函數 將一個表分裂成多個表的操作 將數據條件定向到多個數據流(SPLIT) 將幾個表聯合成一個表的操作 將多個Pig關繫表合並成一個表(堆砌行集) 小結 第6章 分組操作 按key將記錄分組到袋 模式用法 統計key的出現次數 使用帶分隔符的字符串表示值的集合 使用帶分隔符的字符串表示復雜數據結構 使用JSON編碼的字符串表示復雜數據結構 分組和聚合 聚合組的統計數據 **彙總字段 彙總整個表的聚合統計值 彙總字符串字段 使用直方圖計算數值型值的分布情況 模式用法 直方圖的數據分箱 確定箱子的大小 解釋直方圖和分位數 將數據分箱到規模呈指數變化的塊 為通用代碼段創建Pig宏 比賽分布情況 **情況和干擾因子 不要相信尾部分布 計算相對分布直方圖 重新注入全局值 在組內計算直方圖 導出可讀結果 彙總技巧 統計組的條件子集——彙總技巧 同時彙總組的多個子集 測試組內某個值是否缺失 小結 參考文獻 第7章 表連接 匹配表記錄(內連接) 將一個表的記錄與另一個表的記錄直接匹配連接(直接內連接) 連接是怎麼工作的 連接就是COGROUP+FLATTEN 連接就是在表名上進行二次排序的MapReduce作業 處理連接和分組中的空值和不匹配 枚舉多對多關繫 連接表和它自己(自連接 包含不匹配記錄的連接(外連接 模式用法 連接不含外鍵關繫的表 連接整型表填補列表中的空白 僅選擇與另一個表不匹配的記錄(反連接) 僅選擇與另一個表匹配的記錄(半連接) 反連接的另一種方式:使用COGROUP 小結 第8章 排序操作 準備職業生涯時期 對所有記錄進行全排序 多字段排序 表達式排序(行不通) 大小寫不敏感的字符串排序 排序的空值處理 將值放到排序順序的頂部或底端 組內排序 模式用法 根據字段值的Top-K選擇行 組內Top-K 按照排序順序給記錄編號 找出*大值對應的記錄 對一組記錄進行混排 小結 第9章 重復記錄和**記錄 處理重復 消除表中的重復記錄 消除組內的重復記錄 基於鍵消除重復 基於鍵選擇**(或重復)記錄 集合操作 全表上的集合操作 DistinctUnion DistinctUnion(其他方法) SetIntersection SetDifference SymmetricDifference:(A-B)+(B-A) SetEquality 組內集合操作 構造一個集合序列 某個組內的集合操作 小結 索引
| | | | | |