了得網圖書_社交媒體數據挖掘與分析

作者:(美)加博爾·薩博(Gabor Szabo) 等著李凱,呂天陽譯

定價:79

出版社:機械工業出版社

出版日期:2020年01月01日

頁數:219

裝幀:平裝

ISBN:9787111643685

●譯者序
前言
致謝
作者簡介
技術編輯簡介
第1章用戶：誰參與社交媒體1
1.1測量Wikipedia中用戶行為的變化1
1.1.1用戶活動的多樣性2
1.1.2人類活動中的長尾效應18
1.2隨處可見的長尾效應：80/20定律20
1.3Twitter上的在線行為23
1.3.1檢索用戶的Tweet24
1.3.2對數分區26
1.3.3Twitter上的用戶活動27
1.4總結28
第2章網絡：社交媒體如何運行29
2.1社交網絡的類型和屬性30
2.1.1用戶何時創建連接：顯式網絡30
2.1.2有向圖與無向圖31
2.1.3節點和邊的屬性31
2.1.4加權圖32
2.1.5由活動構建圖：隱式網絡33
2.2網絡可視化35
2.3度：贏家通喫38
2.3.1連接計數40
2.3.2用戶連接的長尾分布41
2.3.3超越理想網絡模型43
2.4捕獲相關：三角結構、簇和同配性45
2.4.1局部三角結構和簇45
2.4.2同配性49
2.5總結53
第3章時序過程：用戶何時使用社交媒體54
3.1傳統模型如何描述事件發生的時間54
3.2事件間隔時間57
3.2.1與無記憶過程的對比60
3.2.2自相關63
3.2.3與無記憶過程的偏離64
3.2.4用戶活動中的時間周期66
3.3個體行為的爆發70
3.4預測長期指標78
3.4.1發現趨勢80
3.4.2發現季節性82
3.4.3利用ARIMA預測時間序列84
3.5總結86
第4章內容：社交媒體中有什麼88
4.1定義內容：聚焦於文本和非結構數據88
4.1.1從文本生成特征：自然語言處理基礎89
4.1.2文本中詞條的基本統計91
4.2使用內容特征識別主題92
4.2.1話題的流行度98
4.2.2用戶個體興趣有多麼多樣化100
4.3從高維文本中抽取低維信息102
4.4總結120
第5章處理大型數據集122
5.1MapReduce：組織並行和串行操作122
5.1.1單詞計數124
5.1.2偏斜：最後一個Reducer的詛咒127
5.2多階段MapReduce流127
5.2.1扇出129
5.2.2歸並數據流129
5.2.3連接兩個數據源131
5.2.4連接小數據集134
5.2.5大規模MapReduce模型134
5.3MapReduc程序設計模式135
5.3.1靜態MapReduce作業135
5.3.2迭代MapReduce作業140
5.3.3增量MapReduce作業146
5.3.4時間相關的MapReduce作業146
5.3.5處理長尾分布社交媒體數據的挑戰153
5.4抽樣和近似：以較少計算得到結果154
5.4.1HyperLogLog156
5.4.2Bloom過濾器161
5.4.3Count-MinSketch166
5.5在Hadoop集群上運行171
5.5.1在 EC2上安裝CHD集群171
5.5.2為合作者提供IAM存取174
5.5.3根據需要增加集群處理能力175
5.6總結175
第6章學習、映射和推薦177
6.1在線社交媒體服務177
6.1.1搜索引擎177
6.1.2內容參與178
6.1.3與現實世界的互動179
6.1.4與人的互動180
6.2問題闡述180
6.3學習和映射182
6.3.1矩陣分解183
6.3.2學習和訓練184
6.3.3電影評分示範187
6.4預測與推薦197
6.4.1評估199
6.4.2方法概述200
6.5總結209
第7章結論210
7.1人類互動模式出乎意料的穩定性210
7.2均值、標準差和抽樣211
7.3移除異常值216

本書圍繞著如何探索和理解社交媒體繫統的基本組成部分進行組織，簡單地說來就是誰（who）、如何（how）、何時（when）和什麼（what）構成了社交媒體過程。本書的目標是“授人以漁”。在涵蓋了社交媒體分析的主要方面之後，本書還以大量篇幅介紹了大數據環境下處理社交媒體數據所需的工具、算法的原理和實際案例，讀者可以以此為基礎，快速介入生產環境下的社交媒體數據處理任務。

商品搜索

商品分类

【醫學】

【各大出版社】