机器学习和数据挖掘朴素贝叶斯分类器

在第152页的图7.14中，阑尾炎的诊断被建模为贝叶斯网络。因为有向边从诊断节点开始并且没有结束，所以必须使用贝叶斯公式来回答诊断查询。对于症状S 1 ，…，Sn和具有值b 1
，…，bk的k值诊断D ，我们计算概率

P（D | S 1 ，…，S）= P（S 1，…，Sn | D）・ P（D），

n P（S 1，…，Sn）

根据患者的症状进行诊断。在最坏的情况下，即，如果没有独立变量，则需要针对分布P（S 1
，…，Sn，D）的所有20 643 840概率确定所有症状和D的所有组合。这将需要一个庞大的数据库。在L EX – MED的贝叶斯网络的情况下，必要值（在CPT中）的数量减少到521.然而，网络可以进一步简化，因为我们假设所有的参数变量都是条件独立的D，即：

P（S 1，…，Sn | D）= P（S 1 | D）・・・・ P（Sn | D）。

然后将阑尾炎的贝叶斯网络简化为第 203 页的图 8.30 所示的星形。

因此我们得到了公式

P（D | S 1，…，Sn）=

P（D）n

P（Si | D）

。（8.8）

i = 1

P（S 1，…，Sn）

= |

通过简单朴素贝叶斯分类器将计算出的概率转换为决策，该分类器从D中的所有值di中选择最大P（D di S 1 ，…，Sn）。也就是说，它决定了

d 朴素– 贝叶斯= argmax 我∈{ 1
，…，K } P（d = d 我|小号1，…，S Ñ）。

d）。

一世

因为（ 8.8 ）中的分母是常数，所以在最大化期间可以省略它，这导致朴素的贝叶斯公式

d朴素–贝叶斯= argmax
我∈{ 1，…，K }

P（D = d）P（S |

j = 1

由于现在有几个节点拥有较少的祖先，因此根据第151页的（7.22），描述CPT中L EXMED分布所需的值的数量会减少。

6 ・ 4 + 5 ・ 4 + 2 ・ 4 + 9 ・ 4 + 3 ・ 4 + 10 ・（ 1 ・ 4 ）+ 1 = 141 。

图8.30 L EXMED应用的贝叶斯网络，假设所有症状在诊断时都是有条件独立的

对于像L EXMED这样的医疗诊断系统，这种简化是不可接受的。但对于具有许多自变量的任务，朴素贝叶斯部分甚至非常适合，正如我们将在文本分类示例中看到的那样。

顺便说一句，朴素贝叶斯分类与Sect中描述的线性分数系统同样具有表现力。7.3.1（参见第 219 页的练习 8.16 ）。也就是说，所有评分都具有基础假设，即所有症状在诊断时都是有条件独立的。尽管如此，今天仍然在医学中使用得分。尽管它是由更好的，有代表性的数据库生成的，但与第142页的图7.10中的L EXMED 相比，Ohmann评分的诊断质量更差。它有限的表现力当然是一个原因。例如，与朴素贝叶斯一样，不可能使用分数来模拟症状之间的依赖关系。

概率的估计如果我们在第 202 页的（ 8.8 ）中观察到朴素的贝叶斯公式，我们看到，只要其中一个表达式，整个表达式就变为零

右侧的扭矩 P（Si | D）变为零。从理论上讲，这里没有任何错误。然而，在实践中，如果 P（Si D），这会导致非常不舒服的影响

很小，因为这些是通过计算频率并用它们代替来估算的

成

P（Si

x D y） | 的Si = X ∧ d = ÿ | 。

= | = =

| D = y |

= | = =

= = = | = =

= | = =

假设对于变量Si：P（Si x D y） 0 。01和D y有40个训练案例。然后很有可能没有Si x和D y的训练情况，我们估计P（Si x D y） 0。对于不同的值D z，假设关系类似地定位，但估计结果值更大所有P（Si x D z）均为零。因此，值D z总是优选的，这不反映实际的概率分布。因此，在估算概率时，公式

P（A | B）≈ | 一个∧乙| = n AB

被替换为

| B | NB

| ≈

P（AB）n AB + mp，

nB + m

其中p P（A）是用于先验概率甲，和米是可以自由选择的，并且被称为“等效数据尺寸”的常数。较大米变得相比，从所测量的频率所确定的值的先验概率的重量越大。

8.6.1朴素贝叶斯的文本分类

朴素贝叶斯今天在文本分类方面非常成功和多产。它的主要，同时也是非常重要的应用程序是自动将电子邮件过滤到所需和不受欢迎的垃圾邮件或垃圾邮件。在诸如SpamAssassin [Sch04]之类的垃圾邮件过滤器中，使用了一种朴素的贝叶斯分类器，它可以学习从垃圾邮件中分离所需的电子邮件。SpamAssassin是一个混合系统，使用黑白名单执行初始过滤。黑名单是来自垃圾邮件发件人的被阻止电子邮件地址的列表，其电子邮件始终被删除，白名单是那些发送者始终发送电子邮件的列表。在此预过滤之后，剩余的电子邮件根据其实际内容按照朴素贝叶斯分类器进行分类，换句话说，根据文本进行分类。

这里朴素贝叶斯滤波器的学习能力非常重要。为此，用户必须首先根据需要手动分类大量电子邮件或垃圾邮件。然后训练过滤器。为了保持最新状态，必须定期重新过滤过滤器。为此，用户应该正确地对过滤器错误分类的所有电子邮件进行分类，即将它们放在适当的文件夹中。然后使用这些电子邮件不断重新训练过滤器。

除了垃圾邮件过滤之外，还有许多其他应用程序可用于自动文本分类。重要的应用包括在互联网论坛中过滤不受欢迎的条目，以及跟踪具有诸如激进或恐怖活动，儿童色情或种族主义等犯罪内容的网站。它还可用于自定义搜索引擎以符合用户的偏好，以便更好地对搜索结果进行分类。在工业和科学领域，全公司范围内的数据库或文献搜索都是研究的前沿。通过其学习能力，过滤器可以适应每个用户的习惯和愿望。

我们将介绍来自[Tur50]的Alan Turing在简短文本分析中对朴素贝叶斯的应用进行文本分析：

“我们可能希望机器最终能在所有纯粹的知识领域与男性竞争。但哪些是最好的开始？即使这是一个艰难的决定。许多人认为像国际象棋这样的非常抽象的活动是最好的。还可以保持最好为机器提供金钱可以买到的最好的感觉器官，然后教它理解和说英语。这个过程可以遵循孩子的正常教学。事情会被指出并命名等等。我再也不知道答案是什么，但我认为应该尝试这两种方法。“

假设给出的文本应该分为两类：“ I ”表示有趣，“ I表示不感兴趣。还假设存在已经分类的文本的数据库。应该使用哪些属性？在构建贝叶斯网络的经典方法中，我们定义了一组属性，例如文本的长度，平均句子长度，特定标点符号的相对频率，几个重要单词的频率，如“I”相反，在使用朴素贝叶斯进行分类期间，选择了一种令人惊讶的原始算法，“机器”等。对于文本中的n个单词位置中的每一个，属性si被定义为。尽可能允许文本中出现的所有单词

所有位置值SI。现在为班级我和¬ 我的价值观

P（I | s 1，…，sn）= c ・ P（I）P（si | I）（8.9）

i = 1

¬|

和P（I S 1 ，…，SN）必须被计算并且然后选择具有最大值的类。在上面的示例中，总共有113个单词，这就产生了

P（I | s 1，…，sn）

= c ・ P（I）・ P（s 1 = “We” | I）・ P（s 2 = “may” | I）・・・・・ P（s 113 = “should” | I）

和

P（¬我|小号1，…，SN）

= c ・ P（ ¬I ）・ P（s 1 = “我们” |¬I ）

・ P（s 2 = “may” |¬I ）・・・・・ P（s 113 = “should” |¬I ）。

这里的学习很简单。必须简单地计算条件概率 P（si | I）， P（si |¬I）和先验概率 P（I），P（¬I）。我们现在另外假设 P（si | I）不依赖于文本中的位置。这个

例如，意味着

P（s 61 = “和” | I） = P（s 69 = “和” | I） = P（s 86 = “和” | I）。

因此，我们可以使用表达式 P（和| I），与新的二进制变量和，作为对发生的概率“和”在任意位置。

如果我们找到文本中出现的每个单词wi的频率ni并使用公式，则可以稍微加速实现

升

P（I | s 1，…，sn）= c ・ P（I）P（wi | I）n i （8.10）

i = 1

这相当于第205 页的（8.9 ）。请注意，产品中的索引i仅转到文本中出现的不同单词的数字l。

尽管它简单易用，朴素的贝叶斯为文本分类提供了出色的结果。与朴素贝叶斯一起工作的垃圾邮件过滤器可实现低于百分之一的错误率。系统DSPAM和CRM114甚至可以训练有素，只能分别错误地分类7000或8000封电子邮件。这相当于接近99.99％的正确性。

点击打开微信，马上办理ETC

发表评论 取消回复

发表评论取消回复