强化学习：不知情的组合搜索

点击打开微信，马上办理ETC

找到成功政策的最简单的可能性是所有政策的组合，如第7章所述。6.然而，即使在简单的例子
10.1中，也存在很多策略，这导致组合搜索与极高的计算成本相关联。在图 10.5中，给出了每个州的可能行动数量。由此，可能的策略数量计算为给定值的乘积，如表 10.2 所示。

对于nx和ny的任意值，总有四个角节点具有两个可能的动作，2 （nx – 2 ）+ 2 （ny – 2 ）个边缘节点具有三个动作，以及（nx – 2 ）（ny – 2 ）个内部节点有四个动作。因此有

2 4 3 2 （n x
– 2 ）+ 2 （n y
– 2 ）4
（n x – 2 ）（n y
– 2 ）

图10.6 示例的两个不同策略

固定nx和ny的不同政策。因此，政策数量随着州的数量呈指数增长。如果每个州有多个可能的行动，则通常都是如此。因此，对于实际应用，该算法是无用的。甚至是启发式搜索，在Chap中描述。6，不能在这里使用。由于几乎所有动作的直接奖励为零，因此不能用作启发式评估函数。

当我们考虑（除了枚举所有策略）之外，计算成本甚至更高，必须为每个生成的策略π和每个起始状态s计算值Vπ（s）。必须切断Vπ（s）中的无穷和以用于实际计算; 然而，由于指数减少的γ我在（因素10.1 ）页上的260，这不存在问题。

–

在实施例10.1 页257的差XT + 1个XT可以用作一个的IM中介奖励的动作在，这意味着机器人的每一个移动

–

=≈

右侧的身体被奖励为1，左侧机器人身体的每次运动都会受到1的惩罚。在图10.6中，显示了两个策略。除了状态空间的底行之外，其他地方的直接奖励为零。左策略π 1是在长期更好，因为，长期的动作序列，平均每次操作进展为3 / 8 0 。375 π 1和2 / 6 0 。333为π2 。如果我们在第260 页上使用（10.1 ）得到Vπ（s），结果如下表左上角的起始状态s 0和各种γ值：

γ 0.9	0.8375	0.8
V π 1（S 0）2.52	1.156	0.77
V π 2（S 0）2.39	1.156	0.80

=≈

在这里我们看到政策π1在伽马 0 时优于政策π2 。当伽马 0 时，反之亦然。8.对于γ 0 。8375这两项政策同样出色。我们可以清楚地看到，更大的γ导致更大的时间范围用于评估策略。

点击打开微信，马上办理ETC

意见反馈

发表评论 取消回复

发表评论取消回复