了得網圖書_強化學習（第2版）(博文視點出品) [Reinforcement Learning]

作者簡介

Richard Sutton（理查德·薩頓）

埃德蒙頓 DeepMind 公司的傑出科學家，阿爾伯塔大學計算科學繫教授。他於2003年加入阿爾伯塔大學，2017年加入DeepMind。之前，曾在美國電話電報公司（AT＆T）和通用電話電子公司（GTE）實驗室工作，在馬薩諸塞大學做學術研究。

1978年獲得斯坦福大學心理學學士學位，1984年獲得馬薩諸塞大學計算機科學博士學位，加拿大皇家學會院士和人工智能促進會的會士。

主要研究興趣是在決策者與環境相互作用時所面臨的學習問題，他認為這是智能的核心問題。其他研究興趣有：動物學習心理學、聯結主義網絡，以及能夠不斷學習和改進環境表征和環境模型的繫統。

他的科學出版物被引用超過7萬次。

他也是一名自由主義者，國際像棋選手和癌癥幸存者。

Andrew Barto （安德魯·巴圖）

馬薩諸塞大學阿默斯特分校信息與計算機科學學院名譽教授。1970年獲得密歇根大學數學專業的傑出學士學位，並於1975年獲該校計算機科學專業的博士學位。1977年他加入馬薩諸塞州阿默斯特大學計算機科學繫。在2012年退休之前，他帶領了馬薩諸塞大學的自主學習實驗室，該實驗室培養了許多著名的機器學習研究者。

目前擔任Neural Computation （《神經計算》）期刊的副主編，Journal of Machine Learning Research （《機器學習研究》）期刊的顧問委員會成員，以及Adaptive Behavior （《自適應行為》）期刊的編委員會成員。

他是美國科學促進會的會員，IEEE（國際電子電氣工程師協會）的終身會士（Life Fellow），也是神經科學學會的成員。

2004年，因強化學習領域的貢獻榮獲IEEE神經網絡學會先鋒獎，並因在強化學習理論和應用方面的開創、富有影響力的研究獲得 IJCAI-17卓越研究獎；2019年獲得馬薩諸塞大學神經科學終身成就獎。

他在各類期刊、會議和研討會上發表了100多篇論文，參與撰寫多部圖書的相關章節。

譯者簡介

俞凱

上海交通大學計算科學與工程繫教授，思必馳公司創始人、首席科學家。清華大學自動化繫本科、碩士，劍橋大學工程繫博士。青年千人，國家自然科學基金委優青，上海市“東方學者”特聘教授。IEEE 高級會員，現任 IEEE Speech and Language Processing Technical Committee 委員，中國人工智能產業發展聯盟學術和知識產權組組長，中國計算機學會語音對話及聽覺專業組副主任。

長期從事交互式人工智能，尤其是智能語音及自然語言處理的研究和產業化工作。發表國際期刊和會議論文 150 餘篇，獲得Computer Speech and Language, Speech Communication 等多個國際期刊及InterSpeech等國際會議的優論文獎，所搭建的工程繫統曾獲美國國家標準局語音識別評測冠軍，對話繫統國際研究挑戰賽冠軍等。

獲評2014“吳文俊人工智能科學技術獎”進步獎，“2016科學中國人年度人物”，2018中國計算機學會“青竹獎”。

精彩書評

We are most pleased that Professor Kai Yu has produced this Chinese translation of our textbook, which we hope will enable more Chinese students to self-study reinforcement learning and lead to the development of new ideas within China that contribute to the diversity and vigour of worldwide reinforcement learning research.
——Richard Sutton and Andrew Barto

我們非常高興俞凱教授將我們的教材翻譯成中文，希望這本教材能夠幫助更多的中國學生自學強化學習，並且促進更多的新思想在中國產生，為世界範圍的強化學習研究的多樣性和生機活力做出貢獻。
——理查德薩頓安德魯巴圖

一代又一代的強化學習研究人員都是在薩頓和巴圖的第1版書的啟發下成長起來的。新老讀者都將從第2版中受益：這一新版本大大擴展了覆蓋的主題範圍（新主題包括人工神經網絡、蒙特卡洛樹搜索、平均收益大化以及關於強化學習的經典應用和新應用的章節），不僅增加了內容的廣度，同時作者也在嘗試用更加簡潔的符號理清這些繁雜主題的各個方面，從而增加講解的深度。此外，新版本保留了解釋的簡潔性和直觀性，使各種背景的讀者都能使用本書。總之，這是一本很棒的書，我衷心推薦給那些對使用、開發或理解強化學習感興趣的人。
——喬鮑塞派什瓦裡（Csaba Szepesvari）
DeepMind研究科學家，阿爾伯塔大學計算機科學教授

本書仍然是關於強化學習的開創性教材——強化學習作為日益重要的技術，是當今許多先進的人工智能繫統背後的技術基礎。本書是任何對人工智能科學抱有真正興趣的人的必讀書。
——傑米斯哈薩比斯（Demis Hassabis）
DeepMind聯合創始人兼首席執行官

強化學習是極具發展前景的重要機器學習範式。近年來通過與深度學習的結合，強化學習在棋類遊戲、機器人控制和人機對話等領域的重大進展使得人們對它在人工智能未來發展中的作用極為關注和期待。本書是深入理解強化學習基本概念和算法的經典之作，也是迄今為止繫統完整地描述強化學習領域的教材。俞凱教授是將深度強化學習成功用於人機對話繫統的優秀研究者，具有豐富的強化學習和深度學習的實踐經驗。現在他將《強化學習》(第 2 版) 的這本英文原著的思想和內容以符合中國人理解習慣的方式進行了翻譯，忠於原著而又行文流暢，對促進強化學習在中國的研究和應用具有很大的價值。
——鄧力
美國城堡基金首席人工智能官 (Chief AI Offiffifficer)
美國微軟公司原首席人工智能科學家

強化學習是 AlphaGo 采用的主要技術，也是人工智能的主流領域之一。本書是所有想要深入了解強化學習的有志之士必讀的經典。作者用嚴謹又深入淺出的方式建構起強化學習的核心理論，並附以大量的實例幫助讀者理解。我衷心推薦這本好書給大家。
——黃士傑(Aja Huang)
AlphaGo首席工程師(Lead Programmer of AlphaGo)

這本書是強化學習的聖經。該領域正蓬勃發展，新版的出版正當其時。任何對學習決策問題感興趣的人——學生、研究者、實踐者或者其他感興趣的非專業人士都應該擁有它。
——佩德羅多明戈斯（Pedro Domingos）
華盛頓大學計算機科學教授，《終ji算法》作者

強化學習是人工智能領域的一顆明珠。本書是強化學習領軍人物 Richad Sutton 所寫的經典教材，不僅繫統介紹了強化學習算法，討論了強化學習和心理學及神經科學的關繫，而且包括了強化學習和深度學習結合的新進展與應用。感謝俞凱等人的翻譯，感謝電子工業出版社的工作，把這本好書介紹給國內的讀者們。強烈推薦！
—— 漆遠
螞蟻金服副總裁，首席 AI 科學家

我向所有想了解這個日益重要的機器學習分支的人推薦薩頓和巴圖的新版《強化學習》這一經典著作。該第2版擴展了廣為流行的第一版的內容，涵蓋了當今的關鍵算法和理論，並以真實世界的應用為例講解了這些概念——從學習如何控制機器人，到如何編寫一個擊敗人類圍棋世界冠軍的程序。此外，第2版還討論了這些計算機算法與心理學和神經科學中關於人類學習規律的研究成果之間的本質性聯繫。
——湯姆米切爾（Tom Mitchell）
卡內基梅隆大學計算機科學教授

記得在2018年的IJCAI大會上，我作為國際人工智能聯合會的理事會主席給 Andrew Barto 教授頒發2018年傑出研究貢獻獎（Research Excellence Award)。這個獎每年頒發給一位長期在人工智能界探索並做出傑出貢獻的科學家。我當時問Barto教授，看到現在AlphaGo和AlphaZero憑強化學習橫掃圍棋界，有什麼感受？他說，一直到現在退休，強化學習都是小眾研究領域。現在雖然已退休，但趕上AlphaGo/AlphaZero的成功，還是很感慨的！
在人工智能界，Richard Sutton（Barto的學生）和 Andrew Barto 是公認的強化學習的鼻祖，是他們師徒把強化學習作為一個機器學習的重要分支，搬上大雅之堂。這部《強化學習》（第2版）也凝聚了他們的心血。如文中所述，強化學習模擬人類學習的策略，利用積累的經驗來改進決策繫統的性能，就像國際像棋大師的走子一樣，其是通過反復考慮對手可能的反應而進行多步的判斷來給出的。這些觀察通過用數學，特別是概率論對智能體、對手和環境進行簡練的表達，可以解釋如何通過不斷的訓練，逐步提高智能體的能力。
全書對讀者的機器學習背景沒有做太多的假設，從頭娓娓道來，不僅把強化學習重要的理念講得極為清晰，而且細致回顧了一些強化學習背後的科學家的小故事，生動活潑。同時，書中也不時地指出腦科學的新發現對強化學習研究的啟迪，讓讀者從多學科的角度得到全面的知識。書中還有無數的小例子，用以幫助讀者理解復雜的概念，比如井字棋遊戲。此外，書中引用新的人工智能進展，對強化學習的經典算法（如蒙特卡洛搜索樹算法）加以繫統的解釋，讓讀者理解這些算法如何應用在著名的IBM的WATSON繫統和AlphaGo/AlphaZero繫統中。
中文版特別值得一提的是上海交通大學俞凱教授及其團隊所做的高質量的中文翻譯。本書的翻譯涉及眾多強化學習概念的首次中文翻譯，這需要譯者同時具有深厚的機器學習和翻譯功底。毫不誇張地說，中文版的面世為機器學習領域的中國學者和學生架起了一座通往強化學習經典知識寶庫的橋梁。
——楊強
前海微眾銀行首席人工智能官，香港科技大學講座教授
國際人工智能聯合會理事會主席（2017―2019）

薩頓和巴圖合著的第2版《強化學習》的出版正當其時。這個領域在過去20年裡發生了巨大的變化，機器學習研究人員對強化學習的興趣從來沒有像現在這樣強烈。如果你想完整理解智能體學習的基本原理，你可以從這本教科書開始。第2版包括了許多深度強化學習的新進展，同時也將該領域的學術歷史延伸到了當前。我肯定會把它推薦給我所有的學生，以及其他想了解當前強化學習熱潮的來龍去脈的研究生和科研人員。
——約舒亞本吉奧（Yoshua Bengio）
蒙特利爾大學計算機科學與運籌學教授

《強化學習》(第 2 版)旨在描述強化學習的核心概念與算法，以供所有相關學科的讀者學習。本書不僅包含機器學習、神經網絡等人工智能諸多方面的內容，還涉及心理學與神經科學等內容，新概念、新詞彙很多，給翻譯帶來一定的困難。嚴復提出翻譯要做到“信、達、雅”，這部譯著達到了這些要求，即準確、通順與自然，感謝譯者的努力與付出。我願推薦此譯著給廣大對人工智能感興趣的中國讀者。
——張鈸
中國科學院院士，清華大學人工智能研究院院長

第1版出版20年後，Sutton和Barto的這本經典教科書終於出了第2版，篇幅約為第1版的兩倍，增加了AlphaGo圍棋等許多新內容，值得所有關心強化學習的讀者閱讀收藏。
——周志華
南京大學計算機繫主任/人工智能學院院長，歐洲科學院外籍院士

前言/序言

本書第1版出版的20年以來，在機器學習(包括強化學習) 前沿技術發展的推動下，人工智能取得了重大進展。這些進展不僅歸功於這些年迅猛發展起來的計算機強大的計算能力，也受益於許多理論和算法上的創新。面對這些進展，我們早有對1998年第1版書進行更新再版的打算，但直到2012年纔開始真正著手編纂。第2版的目標與第1版一致：為強化學習的核心概念與算法提供清晰簡明的解釋，以供所有相關學科的讀者學習。這一版仍然是一本概要介紹性的讀物，仍然關注最核心的在線學習算法，同時增加了一些近年來日趨重要的話題，並拓展了部分內容，給出了更新的理解。強化學習領域可以延伸出很多不同的方向，但我們並不想包羅萬像，在此為可能出現的些許遺漏表示歉意。

第2版記號變化

和第1版一樣，我們沒有以最嚴謹的形式化的方式來定義強化學習，也沒有采用特別抽像的術語表達，但是為了大家能更深入地理解，有些話題仍然需要用數學來解釋。無數學需求的讀者可以選擇跳過灰色框中的數學原理部分。在教學過程中，我們發現一些新的記號可以消除一些共同的疑惑點，因此本書的部分記號和上一版相比略有差異。首先我們對隨機變量進行了區分，以大寫字母表示變量本身，小寫字母表示對應的實例。比如時刻t的狀態、動作和收益被表示為St、At和Rt，而它們可能的取值被表示為s、a和r。與之相伴隨，我們用小寫字母的形式(例如vπ)來表示價值函數，用大寫字母表示其表格型的估計值，比如Qt(s,a)。近似價值函數是具有隨機參數的確定性函數，因此用小寫字母表示，比如v?(s,wt)≈vπ(s)。向量用粗體的小寫字母表示(包括隨機變量)，比如權值向量wt(先前用θt表示)、特征向量xt(先前用?t表示)。大寫粗體用以表示矩陣。在第1版中我們使用了特殊記號Paass′來表示轉移概率和期望收益。但這種記號並不能完整地表示出收益的動態性，隻表示了期望值，因此隻適用於動態規劃而不適用於強化學習。另一個缺點是上下標的過度使用。因此，在這一版中我們明確采用p(s′,r|s,a)的記號來表示給定當前狀態s和動作a後，下一時刻的狀態s′和收r的聯合概率分布。所有的記號變化都收錄在稍後的“符號列表”中。

第2版內容結構

第2版在原先的基礎上進行了許多拓展，整體結構也有所變化。第1章是導論性的介紹，其後分為三個部分。第I部分(第2?8 章)會盡可能多地用表格型的案例講解強化學習，主要包括針對表格型案例的學習和規劃算法，以及它們在n步法和Dyna中的統一表達。這部分介紹的許多算法是第2版的新增內容，包括UCB、期望Sarsa、雙重學習、樹回溯、Q(σ)、RTDP和MCTS。從介紹表格型案例開始，可以在最簡單的情況下理解算法的核心思想。本書的第II部分(第9?13章)致力於將這些思想從表格型的情況擴展到函數逼近，包含人工神經網絡、傅立葉變換基礎、LSTD、核方法、梯度TD和強調TD方法、平均收益方法、真實的在線TD(λ)和策略梯度方法等新內容。第2版大幅拓展了對離軌策略的介紹，首先是第5?7章講解表格型的案例，之後在第11章和第12章講解函數逼近法。另一個變化是，這一版將n步自舉法(在第7章中詳細闡述)中的前向視圖思想與資格跡(在第12章中單獨闡述)中的後向視圖思想分開詳細講解。本書的第III部分加入了大量闡述強化學習與心理學(第14章)、神經科學(第15章)聯繫的新章節，更新了針對多種案例，包括Atari遊戲、Watson的投注策略和圍棋人工智能AlphaGo、AlphaGo Zero (第16章)的研究章節。盡管如此，本書涵蓋的內容仍然隻是該領域的一小部分，隻反映了我們長期以來對低成本無模型方法的興趣，這些方法可以很好地適應大規模的應用。最後一章包括了對強化學習未來的社會影響的討論。無論好壞，第2版的篇幅達到了第1版的兩倍。

本書旨在作為一到兩學期強化學習課程的初級教材。一個學期的課程可以著重對前10章進行討論，掌握核心思想，根據需要再將其他章節，或者其他書籍的某些章節，比如Bertsekas和Tsitsiklis(1996)、Wiering和van Otterlo(2012)，以及Szepesvári(2010)或其他文獻作為輔助材料。根據學生的背景，在線有監督學習的一些額外材料可能會對學習這門課有所幫助。比如“選項”的概念和模型(Sutton、Precup和Singh，1999)就是一個很好的補充。兩學期的課程可以使用所有章節內容及補充材料。本書還可以作為機器學習、人工智能或神經網絡等課程的一部分。這種情況隻需要講述部分內容，我們推薦對第1章進行簡要概述，然後學習第2章到2.4節和第3章，隨後根據時間和興趣選擇其餘章節。第6章的內容對於本書和相關課程來說是最重要的。關於機器學習或神經網絡的課程應該使用第9章和第10章的內容，而關於人工智能或規劃算法的課程應該使用第8章的內容。在整本書中，相對比較難且對於其他課程不那麼重要的章節和部分已用?注明。這些部分在第一次閱讀時可以跳過，這不會影響後續閱讀。練習中一些進階的、對理解基礎概念不那麼重要的問題也已經用?標識。

大多數章節最後會出現題為“參考文獻和歷史備注”的部分，在這部分中，我們針對本章中一些值得深入探究的概念和觀點提供了進一步閱讀和研究的材料，並描述了相關的歷史背景。盡管我們試圖使這些部分內容具有權威性和完整性，但也不免會忽略一些重要的前期工作。為此，我們再次表示歉意，也歡迎讀者提出更正和擴展。

本書寫作背景

和第1版一樣，我們用本書的這一版紀念A.Harry Klopf。是Harry把本書的作者們介紹給彼此，也是他關於大腦和人工智能的想法，使我們踏上對強化學習研究的漫長征程。Harry是俄亥俄州賴特-帕特森空軍基地空軍科學研究所(AFOSR)航空電子管理局的一位高級研究員，他受過神經生理學的訓練，並一直對機器智能很感興趣。在解釋自然智能、機器智能基礎機理的問題上，他並不滿意當時的人們對“平衡態搜索”(equilibrium-seeking)過程(包括內部穩態自調整過程和基於錯誤糾正的模式分類方法)的廣泛重視。他指出，嘗試最大化某種準則(無論該準則是什麼)的繫統與搜索平衡態的繫統在本質上有所不同，而具有最大化準則的繫統纔是理解自然智能的重要方向，是構建人工智能的關鍵。Harry從AFOSR申請了項目資助，用於評估這些思想以及相關思想的科學價值。該項目於20世紀70年代末在馬薩諸塞州阿默斯特大學(麻省大學阿默斯特分校)進行，最初由Michael Arbib、William Kilmer和Nico Spinelli指導，他們是麻省大學阿默斯特分校計算機與信息科學繫的教授，繫統神經科學控制論中心的創始成員。這是一支十分有遠見的團隊，專注於神經科學和人工智能交叉方向。

Barto，一位來自密歇根大學的博士，擔任該項目的博士後研究員。與此同時，在斯坦福大學攻讀計算機科學和心理學的本科生Sutton，就經典條件反射中的刺激時機的作用這一話題和Harry產生了共同興趣。Harry向麻省大學提出建議，認為Sutton可以成為該項目的一名重要補充人員。因此，Sutton成為了麻省大學的研究生，在成為副教授的Barto的指導下攻讀博士學位。

本書中對強化學習的研究都出自Harry推動的這一項目，且受其想法啟發而來。此外，也是通過Harry，作者們纔得以聚到一起進行長期愉快的合作。因此，我們將本書獻給Harry，以紀念他對於強化學習領域和我們合作的重要貢獻。我們也感謝Arbib、Kilmer和Spinelli教授為我們提供探索這些想法的機會。最後，感謝AFOSR在研究早期給予我們的慷慨支持，並感謝NSF(美國國家科學基金會)在接下來的幾年中給予的慷慨支持。

致謝

我們還要感謝在第2版中為我們提供靈感和幫助的許多人，同樣我們也要對第1版中致謝過的所有人再次表示深深的感謝，如果不是他們對第1版的貢獻，這一版也不會面世。在這個長長的致謝列表中，我們增加了許多特別為第2版作出貢獻的人。多年來在使用該教材的教授的課堂上，我們的學生以各種各樣的方式作出貢獻：指正錯誤，提供修改方案，也包括對我們沒解釋清楚的地方表達困惑。我們還要特別感謝Martha Steenstrup閱讀並提供詳細的意見。如果沒有這些心理學和神經科學領域專家的幫助，相關章節將無法完成。感謝John Moore多年來在動物學習實驗、理論和神經科學方面的耐心指導，John仔細審閱了第14章和第15章的多版草稿。感謝Matt Botvinick、Nathaniel Daw、Peter Dayan和Yael Niv對這些章節的建議，對我們閱讀大量文獻給予的重要指導，以及對早期草稿中錯誤的斧正。當然，這些章節一定還存在某些紕漏。我們感謝Phil Thomas幫助我們尋找非心理學、非神經科學研究的人士來閱讀這些章節，感謝Peter Sterling幫助我們改進注釋部分。感謝Jim Houk為我們介紹基底核神經中樞進行信息處理的過程，並提醒我們注意其他一些相關的神經科學的內容。在案例學習的章節，José Martínez、Terry Sejnowski、David Silver、Gerry Tesauro、Georgios Theocharous和Phil Thomas幫助我們了解他們的強化學習應用程序的細節，並對這些章節的草稿提出了十分有用的意見。特別感謝David Silver幫助我們更好地理解蒙特卡洛樹搜索和DeepMind的圍棋程序(Go-playing program)。感謝George Konidaris在傅立葉基的相關章節提供的幫助，感謝Emilio Cartoni、Thomas Cederborg、Stefan Dernbach、Clemens Rosenbaum、Patrick Taylor、Thomas Colin和Pierre-Luc Bacon在多方面對我們提供的幫助。

Sutton還要感謝阿爾伯塔大學強化學習和人工智能實驗室的成員對第2版的貢獻，特別是Rupam Mahmood對於第5章中關於離軌策略蒙特卡洛方法的重要貢獻，Hamid Maei在第11章中提出的關於離軌策略學習的觀點，Eric Graves在第13章中進行的實驗，Shangtong Zhang復現並驗證了幾乎所有的實驗結果，Kris De Asis在第7章和第12章中提供的新技術內容，以及Harm van Seijen提出的n步方法與資格跡分離的觀點，(和Hado van Hasselt一起)和第12章中涉及的資格跡前向、後向等價性的觀點。Sutton 也非常感謝阿爾伯塔省政府和加拿大國家科學與工程研究委員會在整個第2版的構思和編寫期間給予的支持和自由。特別感謝Randy Goebel在阿爾伯塔省創建的包容支持、具有遠見的基礎研究環境。同時，也還要感謝在撰寫本書的最後6個月中DeepMind給予的支持。

最後，我們要感謝許多閱讀網絡發布的第2版的細心讀者們，他們發現了許多我們忽視的錯誤，提醒我們注意可能出現的混淆點。

譯者序
“思想總是走在行動的前面，就好像閃電總是走在雷鳴之前。”德國詩人海涅的詩句再恰當不過地描述了我第一次讀到本書英文原版時的感受。
縱觀人工智能技術的發展歷史，就是一部思想、理論、算法、工程應用的成就交替出現而又交相輝映的歷史。傳統人工智能領域的三大學派：以邏輯推斷和貝葉斯學習為代表的符號主義學派、以神經網絡為代表的聯結主義學派以及以控制論和強化學習為代表的行為主義學派，在不同的歷史階段都產生了很多絕妙的思想和理論成果，而技術應用的水平和範圍也讓它們受到的關注度起起落落。20 世紀 40 年代到 50 年代，行為主義的控制論因其在航空、航天、機械、化工等領域的巨大成功受到了極大重視，也獨立產生了自動控制等技術學科，甚至連早期的計算機專業也都是從控制相關的專業中分出來的，但其應用往往不被認為是一種“智能”，因而長期獨立發展，遊離於人工智能研究者的視野之外；而20世紀50年代人工智能的概念被正式提出以後，符號主義的數理邏輯以及貝葉斯學習等經典機器學習理論一直一枝獨秀，引領著人工智能的研究和應用，尤其是專家繫統和經典機器學習理論的大量成功應用，使得它成為 20 世紀在人工智能研究中占據統治地位的主流學派；聯結主義的神經網絡的發展則一波三折，20世紀60年代類腦模型的研究和80年代反向傳播算法的提出都使得神經網絡的研究在短時間內出現過熱潮，然而理論局限和應用瓶頸一次又一次地把神經網絡的研究打入冷宮，直到21世紀初，深度學習理論被提出，借助GPU等計算機硬件的算力飛躍並與大數據結合，迅速產生了巨大的產業技術紅利，使得聯結主義一躍成為當前人工智能研究最炙手可熱的學派。而無論技術應用如何風雲變幻，產業發展如何潮起潮落，在人工智能的發展歷程中，始終有一批思想的先行者以近乎頑固的執著態度在不同時代的“非主流”方向上進行著思考和探索，而正是這些執著甚至孤獨的思想者，在技術應用熱潮冷卻後的暗夜裡保留了火種，照亮了人類不停息的探索之路。
本書的兩位作者Richard S. Sutton和Andrew G. Barto就是這樣的思想先行者，而本書所介紹的“強化學習”，則是後深度學習時代技術發展的重要火種之一。以聯結主義的神經網絡為代表的深度學習毫無疑問是21世紀初人工智能領域的最重要、最具實用意義的技術突破之一，它為基礎研究走向產業應用做出了巨大貢獻，也相應地贏得了巨大的聲譽和關注。然而，如火如荼的產業應用掩蓋不住冷靜的研究者們對人工智能未來走向的擔憂，越來越多的研究者把深度學習的改良性研究視為工業界的應用技巧，而開始關注與聯結主義的經典深度學習不同的人工智能範式探索。這其中，不同學派的思想融合產生了兩個重要趨勢。一個是將聯結主義與符號主義融合起來，將神經網絡的“黑箱學習”與先驗知識、符號推理和經典機器學習結合，實現可解釋、可推理、可操控的新一代“白箱學習”；另一個則是將聯結主義與行為主義融合起來，將基於靜態數據和標簽的、數據產生與模型優化相互獨立的“開環學習”，轉變為與環境動態交互的、在線試錯的、數據（監督信號）產生與模型優化緊密耦合在一起的“閉環學習”。強化學習就是“閉環學習”範式的典型代表，正如本書中所介紹的，它與傳統的預先收集或構造好數據及標簽的有監督學習有著本質的區別，它強調在與環境的交互中獲取反映真實目標達成度的反饋信號，強調模型的試錯學習和序列決策行為的動態和長期效應。這使得強化學習在人工智能領域的一些難題，如我本人所從事的認知型人機口語對話繫統的研究中，具有無可替代的重要地位。而這些寶貴的思想，也為聯結主義的深度學習在小數據、動態環境、自主學習等方面的進一步發展提供了重要的基礎。在 AlphaGo戰勝李世石之後，AlphaZero以其完全憑借自我學習超越人類在各種棋類遊戲中數千年經驗的能力再次刷新了人類對人工智能的認識，也使得強化學習與深度學習的結合受到了學術界和產業界的前所未有的關注。
《強化學習》的英文第2版正是在這樣的背景下出版的。本書並非一本實用主義的算法普及材料，而是一本強化學習思想的深度解剖之作，是強化學習基礎理論的經典論述。本書沒有從復雜的數學角度對強化學習的相關理論和方法給以極其嚴格的形式化推導，而是從強化學習的基本思想出發，深入淺出而又嚴謹細致地介紹了馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、同軌離軌策略等強化學習的基本概念和方法，並以大量的實例幫助讀者理解強化學習的問題建模過程以及核心的算法細節。自1998年第1版出版以來，本書就一直是強化學習領域的經典導論性教材。在第2版中，原作者又加入了很多新的內容，包括對深度強化學習應用（如 AlphaGo）的介紹，以及更新的思想和理解等，使得本書既保持對核心理論的清晰簡明的講解，又包含了與時俱進的最新應用成果和作者的最新思想。本書既可以作為一到兩學期的強化學習課程的初級教材，也可以作為研究者自學的入門教程。在本書的翻譯過程中，Richard S. Sutton 和 Andrew G. Barto還特意為中國讀者寫了一段寄語，其中提到希望本書的中文譯本能夠促進中國學生產生更多的新思想，為世界範圍的強化學習的研究繁榮做出貢獻。這一期望也使我倍感榮幸，希望本書的中文譯本能夠讓他們的思想為更多的中國研究者所了解，並作為一個種子，在中國孕育並產生人工智能前沿研究的新思想。
本書的翻譯得到了上海交通大學計算機繫智能語音實驗室同學們的大力支持，尤其是劉奇、陳志、陳露和吳越同學付出了大量的精力進行組織和排版整理，卞天靈、曹瑞升、杜晨鵬、黃子礫、金凱祺、蘭鷗羽、李晨達、李大松、李福斌、李傑宇、李沐陽、劉辰、劉嘯遠、盧怡宙、馬嬈、盛佩瑤、王晨、王鴻基、王巍、吳嫣然、吳章昊、徐志航、楊閏哲、楊葉新、葉子豪、張王優、趙晏彬、周翔等同學都為本書的翻譯做出了貢獻。同時，也特別感謝蘇州大學劉全教授，陸軍軍醫大學王曉霞博士，清華大學劉樂章同學和北京交通大學張智慧同學對翻譯稿進行了試讀並幫助審校。本書的翻譯也得到了電子工業出版社的大力支持，在此一並表示衷心的感謝。翻譯過程難免存在疏漏和錯誤，歡迎讀者批評指正。
俞凱
2019 年 4 月

查看全部↓

商品搜索

商品分类

【醫學】

【各大出版社】

【医学】

【各大出版社】

產品特色

編輯推薦

內容簡介

作者簡介

精彩書評

目錄

前言/序言