第一次系统学习强化学习,本笔记语言为中文。
- 🥊 入门学习 / 读书笔记 GitHub链接:PiperLiu/Reinforcement-Learning-practice-zh
- 💻 阅读论文 / 视频课程的笔记 GitHub链接:PiperLiu/introRL
- ✨ 大小算法 / 练手操场 GitHub链接:PiperLiu/Approachable-Reinforcement-Learning
- 强化学习圣经的第一遍学习 [details]
- Deep Reinforcement Learning 的第一遍阅读 [details]
- Approximate Dynamic Programming 的第一遍阅读 [details]
输出是最好的学习,我的学习方法如下:
- 读书,为了保证进度,我选择阅读中文版书籍[1-2];
- 一般地,每读完一章,我会把其知识体系用自己的语言概括下来,这会引发我的很多思考:完整地将其表述出来,会弥补我读书时没有注意到的问题;
- 结合代码的笔记与心得,以
.ipynb
文件形式写在了./practice/中,没有代码的,以.md
形式写在了./mathematics/中; - 我会参考他人的笔记与思考,对我帮助很大的有:
目前已完成:
- 第I部分 表格型求解方法 学习总结 link
- 第II部分 表格型近似求解方法
- 第III部分 表格型深入研究
学习笔记目录(所有的.ipynb
链接已转换到nbviewer.jupyter.org/github/
):
- 摇臂赌博机:
- 马尔科夫链与贝尔曼方程:
- 动态规划:
- 蒙特卡洛方法:./practice/04-Monte-Carlo-Methods.ipynb
- (单步)时序差分学习:
- n 步自举法:./practice/06-N-Step-Bootstrapping.ipynb
- 表格型方法的规划与学习:
-
- 书前八章总结:./mathematics/表格型方法总结.md
-
- Dyna-Q 与 优先遍历实例:./practice/07-01-Maze-Problem-with-DynaQ-and-Priority.ipynb
- 第9章:基于函数逼近的同轨策略预测:
-
- 实例(随机游走与粗编码大小):./practice/On-policy-Prediction-with-Approximation.ipynb
- 第10章:基于函数逼近的同轨策略控制:
-
- 实例(n步Sarsa控制与平均收益实例):./practice/Mountain-Car-Acess-Control.ipynb
- 第11章:基于函数逼近的离轨策略方法:
- 第12章:资格迹:
-
- 心得:第12章:资格迹.md
- 第13章:策略梯度方法
听说这本综述不错:
Li Y. Deep reinforcement learning: An overview[J]. arXiv preprint arXiv:1701.07274, 2017.
如果想看看论文与代码,可以考虑先看:
https://github.com/ShangtongZhang/DeepRL
在管理中,强化学习(近似动态规划)有哪些应用?老师给我推荐了这本书:
- [1] 强化学习(第2版); [加拿大] Richard S. Sutton, [美国] Andrew G. Barto; 俞凯 译.
- [2] 在上述书籍出版前,有人已经开始了翻译工作:http://rl.qiwihui.com/.
- [3] 英文电子原版在:http://rl.qiwihui.com/zh_CN/latest/chapter1/introduction.html,已经下载到本仓库./resources/Reinforcement Learning - An Introduction 2018.pdf
- [4] 强化学习读书笔记系列;公众号:老薛带你学Python(xue_python)
"输出是最好的学习方式"——欢迎在其他平台查看我的学习足迹!