强化学习的数学原理

整理自西湖大学赵世钰老师《强化学习的数学原理》课程

强化学习的数学原理-第四章

本章介绍了可以得到最优策略的三种方法:值迭代算法、策略迭代算法、截断策略迭代算法,以及三者的区别。

强化学习的数学原理-第三章

本章介绍最优策略与最优状态值的定义,并利用压缩映射定理证明其解的存在性的唯一性。

强化学习的数学原理-第二章

本章介绍了状态值、动作值和贝尔曼公式的推导过程

强化学习的数学原理-第一章

本章介绍了强化学习的基本概念,包括状态、动作、奖励、轨迹与回报等核心要素