Skip to content

强化学习

核心概念

  • 智能体(Agent)

  与环境交互的决策主体,通过执行动作获得奖励并调整策略。

  • 环境(Environment)

  智能体交互的对象,根据当前状态和动作生成下一状态和即时奖励。

  • 状态(State) s

  环境在某一时刻的完整描述,具有马尔可夫性(未来状态仅依赖当前状态)。

  • 观测(Observation)

  智能体实际感知到的环境信息(可能不等于完整状态)。

  • 动作(Action)a

  智能体在给定状态下可执行的操作集合中的元素。

  • 奖励(Reward)r

  环境对智能体动作的即时反馈信号,用于指导学习目标。

  • 策略(Policy)π

  从状态到动作的映射,分为确定性策略 a=π(s) 和随机策略 π(as)

  • 折扣因子(Discount Rate) γ[0,1)

  未来的奖励相对于当前奖励的重要程度

  • 折扣回报(Discounted Return)
  • Episode

  从任务的起点到终点的一段完整交互序列

  • Policy Evaluation