强化学习
核心概念
- 智能体(Agent)
与环境交互的决策主体,通过执行动作获得奖励并调整策略。
- 环境(Environment)
智能体交互的对象,根据当前状态和动作生成下一状态和即时奖励。
- 状态(State)
环境在某一时刻的完整描述,具有马尔可夫性(未来状态仅依赖当前状态)。
- 观测(Observation)
智能体实际感知到的环境信息(可能不等于完整状态)。
- 动作(Action)
智能体在给定状态下可执行的操作集合中的元素。
- 奖励(Reward)
环境对智能体动作的即时反馈信号,用于指导学习目标。
- 策略(Policy)
从状态到动作的映射,分为确定性策略
- 折扣因子(Discount Rate)
未来的奖励相对于当前奖励的重要程度
- 折扣回报(Discounted Return)
- Episode
从任务的起点到终点的一段完整交互序列
- Policy Evaluation