人工智能简介：代理 – 我的研究心得

虽然智能代理这个术语对人工智能来说并不陌生，但近年来它才通过[RN10]等突出。代理通常表示处理信息并从输入产生输出的系统。这些代理可以以许多不同的方式分类。

在经典计算机科学中，主要使用软件代理（第 11 页的图 1.4 ）。在这种情况下，代理程序包含一个程序，用于计算用户输入的结果。

另一方面，在机器人技术中，使用了硬件代理（也称为机器人），它们还可以使用传感器和执行器（第 11 页的图 1.5 ）。代理可以使用传感器感知其环境。通过执行器，它可以执行操作并改变其环境。

关于代理的智能，反射代理之间存在区别，反射代理仅对输入作出反应，而代理具有记忆，其中也可以包括过去的决策。例如，通过其传感器知道其确切位置（和时间）的驾驶机器人无法确定其速度作为反射代理。然而，如果它保存位置，简言之，离散的时间步长，则可以很容易地计算其在前一时间间隔内的平均速度。

如果反射代理由确定性程序控制，则它表示所有输出集的所有输入的集合的函数。另一方面，具有存储器的代理通常不是功能。为什么？（参见第 14 页的练习 1.5 。）如果要解决的问题涉及马尔可夫决策过程，反射代理就足够了。这是一个只需要当前状态来确定最佳下一步行动的过程（见第10章）。

应该从建筑物中的房间112移动到房间179的移动机器人采取与应该移动到房间105的机器人不同的动作。换句话说，动作取决于目标。这些代理被称为基于目标的。

表1.1 从哥德尔到今天人工智能开发的里程碑

1931年奥地利人KurtGödel表明，在一阶谓词逻辑中，所有真实的陈述都是可推导的[Göd31a]。另一方面，在高阶逻辑中，存在无法证明的真实陈述[Göd31b]。（在[Göd31b]中，哥德尔表明，用算术公理扩展的谓词逻辑是不完整的。）

1937年艾伦・图灵指出智能机器的极限与停止问题[Tur37]。

1943年 McCulloch和Pitts建模神经网络，并与命题逻辑联系起来。

1950年 Alan Turing通过图灵测试定义机器智能，并撰写有关学习机器和遗传算法的文章[Tur50]。

1951年Marvin Minsky开发了一种神经网络机器。他用3000个真空管模拟40个神经元。

1955年亚瑟・塞缪尔（IBM）建立了一个学习性的国际象棋程序，它比开发者更好[Sam59]。

1956年麦卡锡在达特茅斯学院组织了一次会议。这里首次引入人工智能这个名称。

Carnegie Mellon大学（CMU）的Newell和Simon介绍了逻辑理论家，这是第一个符号处理计算机程序[NSS83]。

1958年麦卡锡在麻省理工学院（麻省理工学院）发明了高级语言LISP。他编写了能够自我修改的程序。

1959年Gelernter（IBM）构建了Geometry Theorem Prover。

1961年Newell和Simon的一般问题解决者（GPS）模仿人类思想[NS61]。

1963年麦卡锡在斯坦福大学创立了AI实验室。

1965年罗宾逊发明了谓词逻辑的分辨率计算 [Rob65]（第3.5节）。

1966年魏泽鲍姆程序伊丽莎执行与人的自然语言[Wei66]（第对话框1.1.2 ）。

1969明斯基和帕佩特显示在他们的著作感知该感知器，一个非常简单的神经网络，只能代表的线性函数[MP69]（第1.1.2）。

1972年法国科学家Alain Colmerauer发明了逻辑编程语言PROLOG

（第5章）。

英国医师de Dombal开发了一种诊断急性腹痛的专家系统 [dDLS + 72]。它在当时的主流AI社区中没有引起注意（第7.3节）。

1976 Shortliffe和Buchanan开发了MYCIN，这是一种传染病诊断专家系统，能够应对不确定性（第7章）。

1981年日本开始以巨大的代价开展“第五代项目”，目标是建造一台强大的PROLOG机器。

1982年R1，计算机配置专家系统，每年为Digital Equipment
Corporation节省4000万美元[McD82]。

1986年Rumelhart，Hinton和Sejnowski [RM86]通过神经网络的复兴。系统Nettalk学会大声朗读文本[SR86]（第9章）。

1990 Pearl [Pea88]，Cheeseman [Che85]，Whittaker，Spiegelhalter将概率论引入贝叶斯网络的 AI （第7.4节）。多代理系统变得流行。

1992年Tesauros TD-gammon计划展示了强化学习的优势。

1993年全球RoboCup计划建立足球自动机器人[Roba]。

表1.1 （续）

1995年	从统计学习理论来看，Vapnik开发了支持向量机，这在今天非常重要。
1997年	IBM的国际象棋电脑Deep Blue击败了国际象棋世界冠军加里卡斯帕罗夫。
	第一届日本国际RoboCup比赛。
2003	RoboCup中的机器人令人印象深刻地展示了AI和机器人能够实现的目标。
2006年	服务机器人成为人工智能的主要研究领域。
2010	自主机器人开始学习他们的政策。
2011	IBM的自然语言理解和问答环节“Watson”在美国电视智力竞赛节目“Jeopardy”中击败了两位人类冠军。（第1.4节）。

图1.4 软件代理

与用户互动

图1.5 硬件剂

示例1.1 垃圾邮件过滤器是将传入的电子邮件放入有用或不需要（垃圾邮件）类别并删除任何不需要的电子邮件的代理。它作为基于目标的代理的目标是将所有电子邮件放在正确的类别中。在这个不那么简单的任务中，代理人偶尔会犯错误。因为它的目标是正确地对所有电子邮件进行分类，所以它将尝试尽可能少地发生错误。但是，这并不总是用户想到的。让我们比较以下两个代理。在1,000封电子邮件中，代理1只发出12个错误。另一方面，代理2使用相同的1,000封电子邮件发出38个错误。它因此比Agent 1更糟吗？两个代理的错误在下表中更详细地显示，即所谓的“混淆矩阵”：

代理1：代理2：

		正确的课程
		通缉	垃圾邮件
垃圾过滤器决定	通缉	189	1
垃圾过滤器决定	垃圾邮件	11	799

		正确的课程
		通缉	垃圾邮件
垃圾过滤器决定	通缉	200	38
垃圾过滤器决定	垃圾邮件	0	762

事实上，代理1比代理2产生的错误少，但是这些错误很严重，因为用户丢失了11个可能很重要的电子邮件。因为在这种情况下存在两种不同严重程度的错误，所以每个错误都应该用适当的成本因子加权（参见第7.3.5节和第 14 页的练习 1.7
）。

所有加权误差的总和给出了由错误决策引起的总成本。基于成本的代理的目标是最小化错误决策的成本，即长期，即平均。在Sect。7.3我们将熟悉LEXMED诊断系统作为基于成本的代理的一个例子。

类似地，基于效用的代理的目标是最大化从长期（即平均）的正确决策得出的效用。由各自效用因子加权的所有决策的总和给出了总效用。

人工智能特别感兴趣的是学习代理，它们能够通过培训示例或通过积极或消极的反馈来改变自己，这样他们行动的平均效用会随着时间的推移而增长（见第8章）。

正如在Sect。中所提到的。1.2.5，分布式代理越来越多地使用，其智能不是局限于一个代理，而只能通过许多代理的合作来看待。

代理商的设计与其目标一致，强烈地面向环境，或者它的环境图像，这在很大程度上取决于它的传感器。如果代理人总是知道世界的完整状态，那么环境是可观察的。否则，环境只能部分观察到。如果某个操作总是会产生相同的结果，那么环境就是确定性的。否则它是不确定的。在离散环境中，只有有限的许多状态和动作发生，而连续的环境拥有无限多的状态或动作。

点击打开微信，马上办理ETC

意见反馈

发表评论 取消回复

发表评论取消回复