[ 收藏 ] [ 繁体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

深度強化學習 學術前沿與實戰應用
該商品所屬分類:圖書 -> 人工智能
【市場價】
750-1088
【優惠價】
469-680
【出版社】機械工業出版社 
【ISBN】9787111646648
【折扣說明】一次購物滿999元台幣免運費+贈品
一次購物滿2000元台幣95折+免運費+贈品
一次購物滿3000元台幣92折+免運費+贈品
一次購物滿4000元台幣88折+免運費+贈品
【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
版本正版全新電子版PDF檔
您已选择: 正版全新
溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
*. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
*. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
*. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
內容介紹



出版社:機械工業出版社
ISBN:9787111646648
商品編碼:67225762670

品牌:文軒
出版時間:2020-03-01
代碼:99


    
    
"
作  者:劉馳 等 編
/
定  價:99
/
出 版 社:機械工業出版社
/
出版日期:2020年03月01日
/
頁  數:377
/
裝  幀:平裝
/
ISBN:9787111646648
/
目錄
●前言
致謝
數學符號
第一篇深度強化學習
第1章深度強化學習基礎2
1.1強化學習2
1.1.1強化學習的發展歷史2
1.1.2強化學習簡介4
1.1.3深度強化學習簡介6
1.2馬爾可夫屬性和決策過程9
1.2.1馬爾可夫屬性9
1.2.2馬爾可夫決策過程11
1.3強化學 概念12
1.3.1值函數12
1.3.2動態規劃14
1.3.3時間(序)差分15
1.3.4策略梯度16
1.3.5actor-critic方法17
1.4Q-learning18
1.4.1Q-learning簡介18
1.4.2算法19
1.4.3相關變量及影響20
1.4.4實現方法21
第2章深度強化學習算法22
2.1基於值的深度強化學習算法22
2.1.1深度Q網絡22
2.1.2深度雙Q網絡27
2.1.3競爭網絡架構31
2.1.4平均值DQN33
2.1.5多DQN變種結合體:Rainbow37
2.1.6基於動作排除的DQN42
2.2基於策略的深度強化學習算法46
2.2.1循環確定性策略梯度46
2.2.2深度確定性策略梯度55
2.2.3信賴域策略優化62
2.2.4近端策略優化68
2.3基於模型的深度強化學習算法73
2.3.1基於模型加速的連續深度Q-learning73
2.3.2範例模型探索80
2.3.3基於模型集成的信賴域策略優化88
2.3.4時間差分模型95
2.4基於分層的深度強化學習算法102
2.4.1分層深度強化學習102
2.4.2基於封建網絡的分層強化學習109
2.4.3基於隨機神經網絡的分層強化學習116
第3章分布式深度強化學習123
3.1分布式繫統123
3.1.1分布式繫統簡介123
3.1.2分布式繫統的發展歷史124
3.1.3架構演進125
3.1.4主流分布式繫統框架128
3.2分布式深度強化學習算法129
3.2.1分布式近端策略優化129
3.2.2分布式深度確定性策略梯度138
3.3分布式深度強化學習框架145
3.3.1重要性加權Actor-Learner架構145
3.3.2分布式優先經驗復用池153
第二篇多智能體深度強化學習
第4章多智能體深度強化學習基礎162
4.1多智能體強化學習162
4.1.1多智能體強化學習發展歷史162
4.1.2多智能體強化學習簡介164
4.1.3優勢和挑戰166
4.2部分可見馬爾可夫決策過程166
4.2.1POMDP模型166
4.2.2POMDP相關研究169
4.2.3POMDP應用領域170
第5章多智能體深度強化學習算法171
5.1基於值函數的多智能體深度強化學習171
5.1.1基於DQN的多智能體網絡171
5.1.2增強智能體間學習174
5.1.3協同多智能體學習的價值分解網絡178
5.1.4多智能體深度強化學習的穩定經驗復用池182
5.1.5單調值函數分解187
5.1.6深度強化學習中的對立智能體建模190
5.1.7平均場多智能體強化學習193
5.2基於策略的多智能體深度強化學習197
5.2.1基於自身策略的其他智能體行為預測197
5.2.2雙重平均方案201
5.2.3多智能體深度強化學習的統一博弈論方法208
5.3基於AC框架的多智能體深度強化學習212
5.3.1多智能體深度確定性策略梯度212
5.3.2多智能體集中規劃的價值函數策略梯度220
5.3.3多智能體繫統的策略表示學習227
5.3.4部分可觀察環境下的多智能體策略優化231
5.3.5基於聯網智能體的接近去中心化MARL236
第三篇多任務深度強化學習
第6章多任務深度強化學習基礎244
6.1簡介244
6.1.1理論概述244
6.1.2面臨的挑戰247
6.2策略蒸餾法248
第7章多任務深度強化學習算法253
7.1無監督強化與輔助學習253
7.1.1算法介紹253
7.1.2算法分析255
7.1.3使用場景與優勢分析261
7.2使用漸進式神經網絡解決任務的復雜序列262
7.2.1算法介紹262
7.2.2算法分析262
7.2.3使用場景與優勢分析266
7.3基於單智能體的多任務共享模型267
7.3.1算法介紹267
7.3.2算法分析268
7.3.3使用場景與優勢分析272
7.4使用PopArt歸一化多任務更新幅度273
7.4.1算法介紹273
7.4.2算法分析274
7.4.3使用場景與優勢分析276
第四篇深度強化學習的應用
第8章遊戲278
8.1GymRetro遊戲平臺278
8.1.1平臺簡介278
8.1.2安裝GymRetro平臺281
8.1.3安裝RetroUI282
8.1.4GymRetro主要函數說明283
8.2相關應用285
8.2.1Pong遊戲285
8.2.2CartPole291
8.2.3FlappyBird298
8.2.4Gradius302
第9章機器人控制312
9.1機器人導航312
9.1.1無地圖導航312
9.1.2社會感知機器人導航316
9.2路徑規劃321
9.3機器人視覺324
第10章計算機視覺327
10.1圖像327
10.1.1圖像字幕327
10.1.2圖像恢復332
10.2視頻337
10.2.1視頻字幕337
10.2.2視頻快進345
10.2.3視覺跟蹤348
第11章自然語言處理354
11.1與知識庫交互的多輪對話智能體354
11.1.1概率KB查找355
11.1.2端到端KB-InfoBot356
11.1.3總結359
11.2魯棒遠程監督關繫提取359
11.2.1問題表述360
11.2.2使用基於策略的智能體重新分配訓練數據集363
11.2.3總結363
11.3非成對情感–情感翻譯363
11.3.1問題表述363
11.3.2訓練算法366
11.3.3總結367
縮寫參照表368
常用詞中英文對照371
參考文獻374
內容簡介
本書共分為四篇,即深度強化學習、多智能體深度強化學習、多任務深度強化學習和深度強化學習的應用。由淺入深、通俗易懂,涵蓋經典算法和近幾年的前沿技術進展。特別是書中詳細介紹了每一種代表性算法的代碼原型實現,旨在理論與實踐相結合,讓讀者學有所得、學有所用。第一篇(包含第1~3章)主要講解深度強化學習基礎,側重於單智能體強化學習算法,相對簡單,有助於初級讀者理解,同時涵蓋了近幾年的經典算法和一些前沿的研究成果。第二篇(包含第4~5章)主要側重於對多智能體深度強化學習的講解,從多智能體強化學習基本概念到相關算法的講解和分析,以多個極具代表性的算法為例帶領讀者逐步學習多智能體訓練及控制的理論與方法。同時,還介紹了多智能體強化學習領域一些前沿學術成果。第三篇(包含第6~7章)擴展到多任務場景,稱為多任務深度強化學習。首先介紹了多任務強化學習的基本概念和相關基礎知識,隨後講解了部分經典的多任務深度強化學習等



"
 
網友評論  我們期待著您對此商品發表評論
 
相關商品
在線留言 商品價格為新臺幣
關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
返回頂部