了得網計算機/網絡_大數據猩球(海量數據處理實踐指南)

前言
**部分入門：理論和工具
第1章 Hadoop基礎
黑猩猩和大像創業
Map-Only作業：逐個處理記錄
PigLatinMap-Only作業
創建DockerHadoop集群
運行作業
小結
第2章 MapReduce
黑猩猩和大像拯救聖誕節
玩具島上的麻煩
黑猩猩把信件變成帶標簽的玩具表
小像將玩具表送到適當的工作臺
示例：馴鹿遊戲
UFO數據
根據報道延遲對UFO目擊分組
Mapper
Reducer
數據可視化
馴鹿小結
Hadoop與傳統數據庫
MapReduce俳句
Map階段簡述
Group-Sort階段簡述
Reduce階段簡述
小結
第3章棒球數據集速覽
數據
縮略詞和術語
規則和目標
評價指標
小結
第4章 Pig入門
Pig幫助Hadoop處理數據表，而不是記錄
維基百科訪問數統計
基本數據操作
控制操作
管道操作
結構化操作
LOAD定位並描述你的數據
簡單類型
復雜類型1，元組：帶類型字段的固長序列
復雜類型2，袋：元組的無限集合
定義變換後的記錄模式
STORE將數據寫入磁盤
輔助命令
DESCRIBE
DUMP
SAMPLE
ILLUSTRATE
EXPLAIN
Pig函數
Piggybank
ApacheDataFu
小結
第二部分戰術：分析模式
第5章 Map-Only操作
模式用法
清除數據
選擇滿足條件的記錄：FILTER等
選擇滿足多個條件的記錄
選擇或丟棄空值記錄
選擇匹配正則表達式的記錄（MATCHES）
根據固定的值列表匹配記錄
按字段名投影字段
使用FOREACH選擇、重命名和重排序字段
抽取記錄的隨機樣本
按key抽取一致性樣本
僅加載部分 part-Files實現粗略抽樣
使用LIMIT選擇固定數量的記錄
其他數據消除模式
變換記錄
使用FOREACH逐個變換記錄
嵌套FOREACH允許使用中間表達式
根據模版格式化字符串
使用復雜類型組裝字面值
操縱字段的類型
整型、浮點型和取整
從外部包調用用戶自定義函數
將一個表分裂成多個表的操作
將數據條件定向到多個數據流(SPLIT)
將幾個表聯合成一個表的操作
將多個Pig關繫表合並成一個表（堆砌行集）
小結
第6章分組操作
按key將記錄分組到袋
模式用法
統計key的出現次數
使用帶分隔符的字符串表示值的集合
使用帶分隔符的字符串表示復雜數據結構
使用JSON編碼的字符串表示復雜數據結構
分組和聚合
聚合組的統計數據
**彙總字段
彙總整個表的聚合統計值
彙總字符串字段
使用直方圖計算數值型值的分布情況
模式用法
直方圖的數據分箱
確定箱子的大小
解釋直方圖和分位數
將數據分箱到規模呈指數變化的塊
為通用代碼段創建Pig宏
比賽分布情況
**情況和干擾因子
不要相信尾部分布
計算相對分布直方圖
重新注入全局值
在組內計算直方圖
導出可讀結果
彙總技巧
統計組的條件子集——彙總技巧
同時彙總組的多個子集
測試組內某個值是否缺失
小結
參考文獻
第7章表連接
匹配表記錄（內連接）
將一個表的記錄與另一個表的記錄直接匹配連接（直接內連接）
連接是怎麼工作的
連接就是COGROUP+FLATTEN
連接就是在表名上進行二次排序的MapReduce作業
處理連接和分組中的空值和不匹配
枚舉多對多關繫
連接表和它自己（自連接
包含不匹配記錄的連接（外連接
模式用法
連接不含外鍵關繫的表
連接整型表填補列表中的空白
僅選擇與另一個表不匹配的記錄（反連接）
僅選擇與另一個表匹配的記錄（半連接）
反連接的另一種方式：使用COGROUP
小結
第8章排序操作
準備職業生涯時期
對所有記錄進行全排序
多字段排序
表達式排序（行不通）
大小寫不敏感的字符串排序
排序的空值處理
將值放到排序順序的頂部或底端
組內排序
模式用法
根據字段值的Top-K選擇行
組內Top-K
按照排序順序給記錄編號
找出*大值對應的記錄
對一組記錄進行混排
小結
第9章重復記錄和**記錄
處理重復
消除表中的重復記錄
消除組內的重復記錄
基於鍵消除重復
基於鍵選擇**（或重復）記錄
集合操作
全表上的集合操作
DistinctUnion
DistinctUnion（其他方法）
SetIntersection
SetDifference
SymmetricDifference：(A-B)+(B-A)
SetEquality
組內集合操作
構造一個集合序列
某個組內的集合操作
小結
索引

商品搜索

商品分类

【醫學】

【各大出版社】