强化学习
强化学习
一种试错型学习范式
随即环境,智能体的动作引起环境的变化
评价:包含噪声的延迟奖励
目标:最大化长期累计回报
状态
状态是用于决定下一步发生什么的信息
形式上,状态是一个关于历史信息的表示
历史是一个状态、动作和奖励组成的序列
环境状态
完全可观测性:智能体能够直接观测到环境状态$O_t = s_t$
部分可观测性:智能体间接观察环境$O_t != s_t$
目标
智能体的目标:最大化其收到的奖励总和
马尔可夫决策过程
理想情况下,一个状态应该总结过去的“经历”,以便保留所有必要的信息,也就是说,它应该具有马尔可夫性:
策略
贝尔曼等式
策略改进
强化学习
http://example.com/2024/11/27/Notes/课程/大三(上)/神经网络与深度学习/强化学习/