强化学习

一种试错型学习范式
随即环境，智能体的动作引起环境的变化
评价：包含噪声的延迟奖励
目标：最大化长期累计回报

状态是用于决定下一步发生什么的信息
形式上，状态是一个关于历史信息的表示
历史是一个状态、动作和奖励组成的序列

完全可观测性：智能体能够直接观测到环境状态$O_t = s_t$
部分可观测性：智能体间接观察环境$O_t != s_t$

智能体的目标：最大化其收到的奖励总和

理想情况下，一个状态应该总结过去的“经历”，以便保留所有必要的信息，也就是说，它应该具有马尔可夫性：

Notes > 课程 > 大三（上） > 神经网络与深度学习

#深度学习

强化学习

http://example.com/2024/11/27/Notes/课程/大三（上）/神经网络与深度学习/强化学习/

许可协议