Skip to content
Lyirs的小屋
搜索文档
K
Main Navigation
首页
主题
菜单
回到顶部
页面导航
马尔可夫决策过程
Markov decision process
定义:
S
:状态
A
(
s
)
:Action,
s
∈
S
R
(
s
,
a
)
:Reward
p
(
s
′
∣
s
,
a
)
:State teansition probability,在状态
s
,执行动作
a
,到达状态
s
′
的概率。
p
(
r
∣
s
,
a
)
:Reward probability,在状态
s
,执行动作
a
,得到奖励
r
的概率。
π
(
a
∣
s
)
:Policy,在状态
s
,执行动作
a
,采取该策略的概率。
Markov property
p
(
s
t
+
1
∣
s
t
,
a
t
,
⋯
,
s
0
,
a
0
)
=
p
(
s
t
+
1
∣
s
t
,
a
t
)
p
(
r
t
+
1
∣
s
t
,
a
t
⋯
,
s
0
,
a
0
)
=
p
(
r
t
+
1
∣
s
t
,
a
t
)