Toggle navigation
Jerry Blog
全部文章
时间线
标签分类
关于作者
强化学习的数学原理
整理自西湖大学赵世钰老师《强化学习的数学原理》课程
强化学习的数学原理-第四章
本章介绍了可以得到最优策略的三种方法:值迭代算法、策略迭代算法、截断策略迭代算法,以及三者的区别。
2025.11.30
强化学习的数学原理-第三章
本章介绍最优策略与最优状态值的定义,并利用压缩映射定理证明其解的存在性的唯一性。
2025.11.17
强化学习的数学原理-第二章
本章介绍了状态值、动作值和贝尔曼公式的推导过程
2025.11.03
强化学习的数学原理-第一章
本章介绍了强化学习的基本概念,包括状态、动作、奖励、轨迹与回报等核心要素
2025.10.15
黄瑞杰
重庆大学 · 计算机科学与技术
电子科技大学 · 控制工程
热衷开源项目和技术分享,喜欢用代码解决问题,也热衷探索人工智能、机器人与前沿技术。
QUICK LINKS
csdn主页
github主页
FEATURED TAGS
全国大学生智能汽车竞赛
强化学习
数据结构与算法