强化学习的数学原理

整理自西湖大学赵世钰老师《强化学习的数学原理》课程

强化学习的数学原理-第四章

本章介绍了可以得到最优策略的三种方法：值迭代算法、策略迭代算法、截断策略迭代算法，以及三者的区别。

2025.11.30

强化学习的数学原理-第三章

本章介绍最优策略与最优状态值的定义，并利用压缩映射定理证明其解的存在性的唯一性。

2025.11.17

强化学习的数学原理-第二章

本章介绍了状态值、动作值和贝尔曼公式的推导过程

2025.11.03

强化学习的数学原理-第一章

本章介绍了强化学习的基本概念，包括状态、动作、奖励、轨迹与回报等核心要素

2025.10.15

黄瑞杰

重庆大学 · 计算机科学与技术
电子科技大学 · 控制工程

热衷开源项目和技术分享，喜欢用代码解决问题，也热衷探索人工智能、机器人与前沿技术。

QUICK LINKS

FEATURED TAGS

全国大学生智能汽车竞赛强化学习数据结构与算法