了得網圖書_自然語言處理實戰利用Python理解、分析和生成文本

作者:(美)霍布森·萊恩,(美)科爾·霍華德,(美)漢納斯·馬克斯·哈普克著史亮等譯

定價:99

出版社:人民郵電出版社

出版日期:2020年10月01日

頁數:460

裝幀:平裝

ISBN:9787115540232

Python開發人員入門自然語言處理推薦現代自然語言處理領域從業者的實用參考指南小米AI實驗室NLP團隊獻譯1.本書是構建能夠閱讀和解釋人類語言的機器的實用指南；2.讀者可以使用現有的Python 包來捕獲文本的含義並相應地做出響應；3.本書擴展了傳統的自然語言處理方法，包括神經網絡、現代深度學習算法和生成技術，用於解決真實世界的問題，如提取日期和名稱、合成文本和回答無固定格式的問題；4.提供源代碼。深度學習領域的近期新進展使各類應用能夠極其精準地理解文本和語音。其結果是，聊天等

●第一部分處理文本的機器
第1章NLP概述3
1．1自然語言與編程語言3
1．2神奇的魔法4
1．2．1會交談的機器5
1．2．2NLP中的數學5
1．3實際應用7
1．4計算機“眼”中的語言8
1．4．1鎖的語言（正則表達式）9
1．4．2正則表達式9
1．4．3一個簡單的聊天機器人11
1．4．4另一種方法14
1．5超空間簡述17
1．6詞序和語法19
1．7聊天機器人的自然語言流水線20
1．8深度處理22
1．9自然語言智商24
1．10小結26
第2章構建自己的詞彙表——分詞27
2．1挑戰（詞干還原預覽）28
2．2利用分詞器構建詞彙表29
2．2．1點積37
2．2．2度量詞袋之間的重合度37
2．2．3標點符號的處理38
2．2．4將詞彙表擴展到n-gram43
2．2．5詞彙表歸一化48
2．3情感55
2．3．1VADER：一個基於規則的情感分析器56
2．3．2樸素貝葉斯58
2．4小結61
第3章詞中的數學62
3．1詞袋63
3．2向量化67
3．3齊普夫定律74
3．4主題建模76
3．4．1回到齊普夫定律79
3．4．2相關度排序80
3．4．3工具82
3．4．4其他工具83
3．4．5OkapiBM2585
3．4．6未來展望85
3．5小結85
第4章詞頻背後的語義87
4．1從詞頻到主題得分88
4．1．1TF-IDF向量及詞形歸並88
4．1．2主題向量89
4．1．3思想實驗90
4．1．4一個主題評分算法94
4．1．5一個LDA分類器95
4．2潛在語義分析99
4．3奇異值分解103
4．3．1左奇異向量U105
4．3．2奇異值向量S106
4．3．3右奇異向量VT107
4．3．4SVD矩陣的方向107
4．3．5主題約簡108
4．4主成分分析109
4．4．1三維向量上的PCA111
4．4．2回歸NLP112
4．4．3基於PCA的短消息語義分析114
4．4．4基於截斷的SVD的短消息語義分析116
4．4．5基於LSA的垃圾短消息分類的效果117
4．5潛在狄利克雷分布（LDiA）119
4．5．1LDiA思想120
4．5．2基於LDiA主題模型的短消息語義分析121
4．5．3LDiA+LDA=垃圾消息過濾器124
4．5．4更公平的對比：32個LdiA主題125
4．6距離和相似度127
4．7反饋及改進129
4．8主題向量的威力132
4．8．1語義搜索133
4．8．2改進135
4．9小結135
第二部分深度學習（神經網絡）
第5章神經網絡初步（感知機與反向傳播）139
5．1神經網絡的組成140
5．1．1感知機140
5．1．2數字感知機141
5．1．3認識偏置142
5．1．4誤差曲面153
5．1．5不同類型的誤差曲面154
5．1．6多種梯度下降算法155
5．1．7Keras：用Python實現神經網絡155
5．1．8展望158
5．1．9歸一化：格式化輸入159
5．2小結159
第6章詞向量推理（Word2vec）160
6．1語義查詢與類比160
6．2詞向量162
6．2．1面向向量的推理165
6．2．2如何計算Word2vec表示167
6．2．3如何使用gensim．word2vec模塊175
6．2．4生成定制化詞向量表示177
6．2．5Word2vec和GloVe179
6．2．6fastText180
6．2．7Word2vec和LSA180
6．2．8詞關繫可視化181
6．2．9非自然詞187
6．2．10利用Doc2vec計算文檔相似度188
6．3小結190
第7章卷積神經網絡（CNN）191
7．1語義理解192
7．2工具包193
7．3卷積神經網絡194
7．3．1構建塊195
7．3．2步長196
7．3．3卷積核的組成196
7．3．4填充198
7．3．5學習199
7．4狹窄的窗口199
7．4．1Keras實現：準備數據201
7．4．2卷積神經網絡架構206
7．4．3池化206
7．4．4dropout208
7．4．5輸出層209
7．4．6開始學習（訓練）211
7．4．7在流水線中使用模型212
7．4．8前景展望213
7．5小結214
第8章循環神經網絡（RNN）215
8．1循環網絡的記憶功能217
8．1．1隨時間反向傳播算法221
8．1．2不同時刻的權重更新223
8．1．3簡要回顧225
8．1．4難點225
8．1．5利用Keras實現循環神經網絡226
8．2整合各個部分230
8．3自我學習231
8．4超參數232
8．5預測235
8．5．1有狀態性236
8．5．2雙向RNN236
8．5．3編碼向量238
8．6小結238
第9章改進記憶力：長短期記憶網絡（LSTM）239
9．1長短期記憶（LSTM）240
9．1．1隨時間反向傳播247
9．1．2模型的使用250
9．1．3髒數據251
9．1．4“未知”詞條的處理254
9．1．5字符級建模255
9．1．6生成聊天文字260
9．1．7進一步生成文本262
9．1．8文本生成的問題：內容不受控269
9．1．9其他記憶機制269
9．1．10更深的網絡270
9．2小結271
第10章序列到序列建模和注意力機制272
10．1編碼-解碼架構272
10．1．1解碼思想273
10．1．2似曾相識？275
10．1．3序列到序列對話276
10．1．4回顧LSTM277
10．2組裝一個序列到序列的流水線278
10．2．1為序列到序列訓練準備數據集278
10．2．2Keras中的序列到序列模型279
10．2．3序列編碼器280
10．2．4思想解碼器281
10．2．5組裝一個序列到序列網絡282
10．3訓練序列到序列網絡282
10．4使用序列到序列網絡構建一個聊天機器人284
10．4．1為訓練準備語料庫285
10．4．2建立字符字典286
10．4．3生成獨熱編碼訓練集286
10．4．4訓練序列到序列聊天機器人287
10．4．5組裝序列生成模型288
10．4．6預測輸出序列288
10．4．7生成回復289
10．4．8與聊天機器人交談290
10．5增強290
10．5．1使用裝桶法降低訓練復雜度290
10．5．2注意力機制291
10．6實際應用292
10．7小結294
第三部分進入現實世界（現實中的NLP挑戰）
第11章信息提取（命名實體識別與問答繫統）297
11．1命名實體與關繫297
11．1．1知識庫298
11．1．2信息提取300
11．2正則模式300
11．2．1正則表達式301
11．2．2把信息提取當作機器學習裡的特征提取任務302
11．3值得提取的信息303
11．3．1提取GPS位置303
11．3．2提取日期304
11．4提取人物關繫（事物關繫）309
11．4．1詞性標注309
11．4．2實體名稱標準化313
11．4．3實體關繫標準化和提取314
11．4．4單詞模式314
11．4．5文本分割314
11．4．6為什麼split）'．!'）函數不管用316
11．4．7使用正則表達式進行斷句316
11．5現實世界的信息提取318
11．6小結319
第12章開始聊天（對話引擎）320
12．1語言技能321
12．1．1現代方法322
12．1．2混合方法326
12．2模式匹配方法327
12．2．1基於AIML的模式匹配聊天機器人328
12．2．2模式匹配的網絡視圖334
12．3知識方法334
12．4檢索（搜索）方法336
12．4．1上下文挑戰336
12．4．2基於示例檢索的聊天機器人338
12．4．3基於搜索的聊天機器人341
12．5生成式方法343
12．5．1聊聊NLPIA343
12．5．2每種方法的利弊345
12．6四輪驅動345
12．7設計過程347
12．8技巧349
12．8．1用帶有可預測答案的問題提問349
12．8．2要有趣350
12．8．3當其他所有方法都失敗時，搜索350
12．8．4變得受歡迎350
12．8．5成為連接器351
12．8．6變得有情感351
12．9現實世界351
12．10小結352
第13章可擴展性（優化、並行化和批處理）353
13．1太多（數據）未必是好事353
13．2優化NLP算法354
13．2．1索引354
13．2．2高級索引355
13．2．3基於Annoy的高級索引357
13．2．4究竟為什麼要使用近似索引361
13．2．5索引變通方法：離散化362
13．3常數級內存算法363
13．3．1gensim363
13．3．2圖計算363
13．4並行化NLP計算364
13．4．1在GPU上訓練NLP模型364
13．4．2租與買365
13．4．3GPU租賃選擇366
13．4．4張量TPU367
13．5減少模型訓練期間的內存占用367
13．6使用TensorBoard了解模型369
13．7小結372
附錄A本書配套的NLP工具373
附錄B有趣的Python和正則表達式380
附錄C向量和矩陣（線性代數基礎）385
附錄D機器學習常見工具與技術391
附錄E設置亞馬遜雲服務（AWS）上的GPU403
附錄F局部敏感哈希415
資源421
詞彙表428

本書是介紹自然語言處理（NLP）和深度學習的實戰書。NLP已成為深度學習的核心應用領域，而深度學習是NLP研究和應用中的必要工具。本書分為3部分：第一部分介紹NLP基礎，包括分詞、TF-IDF向量化以及從詞頻向量到語義向量的轉換；第二部分講述深度學習，包含神經網絡、詞向量、卷積神經網絡（CNN）、循環神經網絡（RNN）、長短期記憶（LSTM）網絡、序列到序列建模和注意力機制等基本的深度學習模型和方法；第三部分介紹實戰方面的內容，包括信息提取、問答繫統、人機對話等真實世界繫統的模型構建、性能挑戰以及應對方法。
本書面向中高級Python開發人員，兼具基礎理論與編程實戰，是現代NLP領域從業者的實用參考書。

(美)霍布森·萊恩,(美)科爾·霍華德,(美)漢納斯·馬克斯·哈普克著史亮等譯

霍布森·萊恩，擁有20年構建自主繫統的經驗，這些繫統能夠代表人類做出重要決策。Hobson在Talentpair訓練機器完成簡歷的閱讀和理解，以減少招聘者產生的偏見。在Aira，他幫助構建了第一個聊天機器人，為視障人士描述視覺世界。

商品搜索

商品分类

【醫學】

【各大出版社】