●項目1
數據采集與預處理準備1
學習目標1
項目描述1
任務1認識數據采集技術,熟悉數據采集平臺1
任務描述1
任務目標2
知識準備2
任務實施10
任務2認識數據預處理技術13
任務描述13
任務目標13
知識準備13
任務實施19
項目2
網絡爬蟲實踐24
學習目標24
項目描述24
任務1使用urllib爬取北京公交線路信息24
任務描述24
任務目標25
知識準備25
任務實施48
任務2使用Selenium爬取淘寶網站信息58
任務描述58
任務目標58
知識準備58
任務實施69
任務3使用Scrapy爬取北京公交信息75
任務描述75
任務目標75
知識準備75
任務實施78
任務4創新與拓展86
任務描述86
任務目標86
項目3
日志數據采集實踐87
學習目標87
項目描述87
任務1Flume的安裝和配置87
任務描述87
任務目標88
知識準備88
任務實施95
任務2Flume采集數據上傳到集群105
任務描述105
任務目標106
知識準備106
任務實施110
任務3創新與拓展118
任務描述118
任務目標118
項目4
數據預處理實踐119
學習目標119
項目描述119
任務1用Pig進行數據預處理119
任務描述119
任務目標120
知識準備120
任務實施134
任務2用Kettle進行數據預處理137
任務描述137
任務目標137
知識準備137
任務實施139
任務3用Pandas進行數據預處理150
任務描述150
任務目標150
知識準備150
任務實施153
任務4用OpenRefine進行數據預處理155
任務描述155
任務目標155
知識準備155
任務實施157
任務5用Flume Interceptor對日志信息進行數據預處理162
任務描述162
任務目標163
知識準備163
任務實施167
任務6創新與拓展176
任務描述176
任務目標176