机器学习和数据挖掘Perceptron，线性分类器

点击打开微信，马上办理ETC

在苹果分类分类示例中，在图 8.3 （第 163 页）中的两个类之间绘制了一条曲线分界线。更简单的情况如图 8.7 所示。这里，二维训练样例可以用直线分开。我们将这样一组训练数据称为线性可分。在n 维中需要超平面

分离。这表示维度为n – 1 的线性子空间。

因为R n中的每个（n – 1）维超平面可以用等式描述

aixi
= θ

i = 1

如下定义线性可分性是有意义的。

图8.8 布尔函数AND可线性分离，但XOR不是（

= 真，

= 假）

⊂⊂

定义8.2两组M 1 R n和M 2 R n称为线性可分离

如果实数a 1 ，…，an，θ存在

艾希>θ 对于所有X ∈中号1和

i = 1

值θ表示阈值。

艾希≤ θ 对于所有X ∈中号2。

i = 1

∧

– +

在图8.8中，我们看到AND函数是线性可分的，但XOR函数却不是。为，例如，线X 1 3 / 2分离式的真假解释X 1 X 2与此相反，异或函数不具有分离的一条直线。显然，在这方面，XOR功能具有比AND功能更复杂的结构。

对应于以下规则：

定义8.3让瓦特 = （W 1 ，…，WN）∈ [R Ñ是权重向量和X ∈ [R Ñ

通过感知器，我们提出了一种非常简单的学习算法，可以分离线性可分离的集合。

输入向量。甲感知表示函数P ：– [R Ñ
→{ 0 ， 1 }，其

P（x）=

1如果wx =

wixi> 0，

ni = 1

0其他。

感知器[Ros58，MP69]是一种非常简单的分类算法。它相当于通过阈值函数激活的双层神经网络，如第 171 页的图 8.9 所示。如章节所示。如图9所示，网络中的每个节点代表神经元，并且每个边缘都是突触。但是现在，我们只会这样做

图8.9 感知器作为双层神经网络的图形表示

将感知器视为学习代理，即将特征向量映射到函数值的数学函数。这里，输入变量喜来表示

功能。

正如我们在公式n
wixi> 0中看到的那样，所有点x都超过了

i = 1

平面ñ
wixi

我 1

= =

= 0被归类为正（ P（x）

= 1），其他所有人都是

ative（ P（x）0）。分离超平面穿过原点，因为 θ0。我们将使用一个小技巧来表明没有任意阈值表示没有功率限制。然而，首先，我们要为感知器引入一种简单的学习算法。

1.
学习规则

如果 WX ≤ 0 然后瓦特=瓦特+ X

w = 实数的任意向量

重复

+ –

利用符号M和M分别表示正负训练模式的集合，感知器学习规则读取[MP69]

P ERCEPTRON L EARNING [ M +
，M – ]

对于所有的X ∈ 中号 +

直到所有的X ∈ 中号 +∪ 中号 – 正确分类

如果 wx > 0 那么 w = w – x

对于所有的X ∈ 中号 –

∈

感知器应输出所有x M +的值1 。通过第170 页的定义8.3 ，当wx > 0 时，这是正确的。如果不是这种情况，则将x添加到权重向量w，由此权重向量在正确的方向上改变。

我们看到这个时候我们应用感知到变化的矢量 w ^ + X ，因为

（ w + x ）・ x = wx + x 2 。

如果这个步骤经常重复，那么在某个时刻，值wx将变为正数，因为它应该是。类似地，我们看到，对于负面的训练数据，

perceptron计算的值越来越小

（ w – x ）・ x = wx – x 2

在某些时候变得消极。2

= + =

= { – – } =

实施例8.2 感知器是上套进行训练中号+ = {（0，1。8），（2，0。6）} 和中号– （1。2，1。4），（0。4，1）。瓦特（1，1）用作初始权重向量。训练数据和由权重向量wx x 1 x 定义的线显示了2 0

在第 173 页的图 8.10中，在第一行的第一张图片中。另外，权重向量绘制为虚线。因为wx 0，这与线正交。

在通过学习算法的循环的第一次迭代中，只有错误地分类训练的例子是（– 1 。 2 ， 1 。 4 ）因为

（– 1。2，1。4）・ 1 = 0。2 > 0。

–

= – – = –

这导致瓦特（ 1 ， 1 ）（ 1 。 2 ， 1 。 4 ）（ 2 。 2 ， 0 。 4 ），如在顶行中绘制的第二图像在图8.10 页173。其他图像显示，在总共五次更改之后，分界线位于两个类之间。因此，感知器正确地对所有数据进行分类。我们在示例中清楚地看到，来自M的每个错误分类的数据点“拉动”权重向量w在其方向上，每个错误分类的点从M “按”相反方向的权重向量。