在环境 environment 中,智能体 agent 处于某个状态 state,它以一定概率
价值计算
智能体执行一系列行为后,可以得到一条路径:
为了估计价值 value,我们把每次行为获得的奖励相加:
由于智能体可以进行无数次行为,求得奖励总和是无穷大。所以引入折扣因子,即赋予最近的奖励更大的权重:
由于智能体每次都可能执行不同行为,进而得到不同的奖励总和
为了理解不同状态间的关系,将
这就得到了贝尔曼方程。
INFO
如果我们更关心采取什么行为能获得最大奖励,那就需要计算行为价值
由此得到
Bellman equation, 贝尔曼方程
贝尔曼方程中有两种概率分布:
对方程进一步简化得到,其中
进而得到矩阵形式:
其中
Bellman optimality equation, 贝尔曼最优方程
最优策略
找最优策略就是求解贝尔曼最优方程,它表示最优策略
可以发现
根据贝尔曼最优公式的性质,通过不断迭代可以获得最优策略。
参考资料
- huggingface Deep RL Course
- 西湖大学赵世钰《强化学习的数学原理》github、bilibili