Jerry Blog

路在脚下,心向远方

强化学习的数学原理-第四章

本章介绍了可以得到最优策略的三种方法:值迭代算法、策略迭代算法、截断策略迭代算法,以及三者的区别。

强化学习的数学原理-第三章

本章介绍最优策略与最优状态值的定义,并利用压缩映射定理证明其解的存在性的唯一性。

强化学习的数学原理-第二章

本章介绍了状态值、动作值和贝尔曼公式的推导过程

强化学习的数学原理-第一章

本章介绍了强化学习的基本概念,包括状态、动作、奖励、轨迹与回报等核心要素

全国大学生智能汽车竞赛--讯飞组解读(二)

本篇文章将带你从ROS基础知识入手,快速熟悉框架架构、基本工具和基础操作。