●譯者序
前言
致謝
作者簡介
技術編輯簡介
第1章用戶:誰參與社交媒體1
1.1測量Wikipedia中用戶行為的變化1
1.1.1用戶活動的多樣性2
1.1.2人類活動中的長尾效應18
1.2隨處可見的長尾效應:80/20定律20
1.3Twitter上的在線行為23
1.3.1檢索用戶的Tweet24
1.3.2對數分區26
1.3.3Twitter上的用戶活動27
1.4總結28
第2章網絡:社交媒體如何運行29
2.1社交網絡的類型和屬性30
2.1.1用戶何時創建連接:顯式網絡30
2.1.2有向圖與無向圖31
2.1.3節點和邊的屬性31
2.1.4加權圖32
2.1.5由活動構建圖:隱式網絡33
2.2網絡可視化35
2.3度:贏家通喫38
2.3.1連接計數40
2.3.2用戶連接的長尾分布41
2.3.3超越理想網絡模型43
2.4捕獲相關:三角結構、簇和同配性45
2.4.1局部三角結構和簇45
2.4.2同配性49
2.5總結53
第3章時序過程:用戶何時使用社交媒體54
3.1傳統模型如何描述事件發生的時間54
3.2事件間隔時間57
3.2.1與無記憶過程的對比60
3.2.2自相關63
3.2.3與無記憶過程的偏離64
3.2.4用戶活動中的時間周期66
3.3個體行為的爆發70
3.4預測長期指標78
3.4.1發現趨勢80
3.4.2發現季節性82
3.4.3利用ARIMA預測時間序列84
3.5總結86
第4章內容:社交媒體中有什麼88
4.1定義內容:聚焦於文本和非結構數據88
4.1.1從文本生成特征:自然語言處理基礎89
4.1.2文本中詞條的基本統計91
4.2使用內容特征識別主題92
4.2.1話題的流行度98
4.2.2用戶個體興趣有多麼多樣化100
4.3從高維文本中抽取低維信息102
4.4總結120
第5章處理大型數據集122
5.1MapReduce:組織並行和串行操作122
5.1.1單詞計數124
5.1.2偏斜:最後一個Reducer的詛咒127
5.2多階段MapReduce流127
5.2.1扇出129
5.2.2歸並數據流129
5.2.3連接兩個數據源131
5.2.4連接小數據集134
5.2.5大規模MapReduce模型134
5.3MapReduc程序設計模式135
5.3.1靜態MapReduce作業135
5.3.2迭代MapReduce作業140
5.3.3增量MapReduce作業146
5.3.4時間相關的MapReduce作業146
5.3.5處理長尾分布社交媒體數據的挑戰153
5.4抽樣和近似:以較少計算得到結果154
5.4.1HyperLogLog156
5.4.2Bloom過濾器161
5.4.3Count-MinSketch166
5.5在Hadoop集群上運行171
5.5.1在 EC2上安裝CHD集群171
5.5.2為合作者提供IAM存取174
5.5.3根據需要增加集群處理能力175
5.6總結175
第6章學習、映射和推薦177
6.1在線社交媒體服務177
6.1.1搜索引擎177
6.1.2內容參與178
6.1.3與現實世界的互動179
6.1.4與人的互動180
6.2問題闡述180
6.3學習和映射182
6.3.1矩陣分解183
6.3.2學習和訓練184
6.3.3電影評分示範187
6.4預測與推薦197
6.4.1評估199
6.4.2方法概述200
6.5總結209
第7章結論210
7.1人類互動模式出乎意料的穩定性210
7.2均值、標準差和抽樣211
7.3移除異常值216