2018年12月13日由历史地图研究

强化学习：简介

点击打开微信，马上办理ETC

到目前为止所描述的所有学习算法 – 除了聚类算法 – 都属于监督学习类。在监督学习中，代理人被要求学习从输入变量到输出变量的映射。这里重要的是，对于每个单独的训练示例，提供输入变量和输出变量的所有值。换句话说，我们需要一个教师或数据库，其中要为足够数量的输入值近似定义要学习的映射。机器学习算法的唯一任务是滤除数据中的噪声并找到一个很好地近似映射的函数，甚至在给定的数据点之间。

在强化学习中，情况不同且更加困难，因为没有可用的训练数据。我们从机器人技术的简单说明性示例开始，然后将其用作各种算法的应用程序。

强化学习在机器人领域非常有价值，其中要执行的任务通常足够复杂，无法作为程序进行编码，并且没有可用的训练数据。机器人的任务包括通过试验和错误（或成功）找出哪些行为在某种情况下是好的而哪些行为不好。在许多情况下，我们人类以非常相似的方式学习。例如，当孩子学会走路时，这通常在没有教学的情况下发生，而只是通过强化。成功的步行尝试会得到前进的回报，不成功的尝试会受到经常痛苦的摔倒的惩罚。积极和消极的强化也是学校和许多体育运动成功学习的重要因素（见第 10.1页图 10.1）258 ）。

在以下示例中学习了大大简化的移动任务。

实施例10.1 的机器人，其机构仅由矩形块并用两个关节臂的 GY 和 GX 示于图10.2 页258 （见[KMK97]）。机器人唯一可能的动作是向上或向下旋转以及向右或向左旋转gx 。此外，我们只允许固定离散单元的移动（例如，10度增量）。代理的任务包括学习策略

W. Ertel，人工智能导论，计算机科学本科专题，

DOI 10.1007 / 978-0-85729-299-5_10，©Springer-Verlag
London Limited 2011

257

图10.1 “也许下次我应该早一点开始或慢一点？” – 从负面强化中学习

图10.2通过移动两个关节，图像左侧的爬行机器人可以前后移动。在行走机器人右侧必须相应地移动所述框架向上和向下或向左和向右。机器人运动的反馈是积极的运动到右侧和阴性运动到左

它允许它尽可能快地向右移动。图 10.2中的步行机器人在相同的二维状态空间内类似地工作。

=

表 10.1 （第 259 页）中显示了成功的操作序列。在时间t 2 的动作导致装载的臂将主体向右移动一个单位长度。通过[KMK97]和[Tok06]可以找到这个例子的精彩动画。

在我们进入学习算法之前，我们必须以数学方式对任务进行适当的建模。我们通过关节位置的两个变量gx和gy描述机器人的状态，每个变量具有有限多个离散值。因此，机器人的状态被编码为矢量（gx，gy）。可能的关节位置的数量是nx或ny。我们使用机器人身体的水平位置（可以采用实际值）来评估机器人的动作。向右移动会得到回报

10.2任务259

表10.1 具有系统向前运动的周期性运动系列循环爬行机器人运行机器人时间状态奖励动作

tg y
g x xa t

1.
向左0向右

2.
向右0向下

3.
向右下0左

4.
向左下1向上

图10.3示例机器人的状态空间，在每个关节的两个可能位置（左）和每个（中间）四个水平和垂直位置的情况下。在右图中，给出了最优策略

随着x的积极变化，向左的运动受到负面变化的惩罚。

在图 10.3 中，两种变体的状态空间以简化形式示出。1

在左边的例子中，两个关节都有两个位置，而在中间的例子中，它们每个都有四个位置。最佳策略如图 10.3 所示。

点击打开微信，马上办理ETC

意见反馈

发表评论取消回复

要发表评论，您必须先登录。