不确定的推理：最大熵原理

点击打开微信，马上办理ETC

现在，我们将使用推理示例，使用概率论可以实现在不确定性下推理的微积分。但是，我们很快就会看到，陈旧的概率路径很快就会结束。具体而言，当可用于解决必要方程的知识太少时，需要新的想法。美国物理学家杰伊斯在20世纪50年代开始在这一领域开展工作。他声称，如果缺少知识，可以最大化所需概率分布的熵，并将此原则应用于[Jay57，Jay03]中的许多示例。这个原则随后得到了进一步发展[Che83，Nil86，Kan89，KK92]，现在已经成熟并且可以应用于技术，我们将在Sect中的LEXMED项目示例中展示。7.3 。

1. 推理规则的概率

⇒

我们希望推导出一种类似于模态推理的不确定知识的推理规则。根据命题A和规则AB的知识，应达到结论B. 简明扼要地描述了这一点

A，A → B 。乙

概率规则的推广产生

P（A）= α，P（B | A）= β 。

P（B）= ？

设两个概率规则α，β，期望值P（B）。通过边际化，我们获得了理想的边际分布

P（B）= P（A，B）+ P（¬A，B）= P（B | A）・ P（A）+ P（B |¬A）・ P（¬A）。

≥| ・

|¬

¬|

右侧的三个值P（A），P（A），P（BA）是已知的，但值P（BA）是未知的。我们不能用类别概率理论对P（B）做一个确切的陈述，但最多我们可以估计P（B）P（BA）P（A）。

我们现在考虑分发

P（A，B）=（P（A，B），P（A，¬B），P（¬A，B），P（¬A，¬B））

并简要介绍了四个未知数

p 1 = P（A，B），

p 2 = P（A，¬B），

p 3 = P（¬A，B），

p 4 = P（¬A，¬B）。

这四个参数决定了分布。如果它们都是已知的，那么可以计算出两个变量A和B的每个概率。为了计算四个未知数，需要四个方程。已经以归一化条件的形式已知一个等式

p 1 + p 2 + p 3 + p 4 = 1 。

因此，还需要三个等式。然而，在我们的例子中，只知道两个方程。

从给定值 P（A）= α 和 P（B | A）= β 我们计算

P（A，B）= P（B | A）・ P（A）= αβ

和

P（A）= P（A，B）+ P（A，¬B）。

由此我们可以建立以下方程组并尽可能地解决它：

p 1 = αβ，（7.4）

p 1 + p 2 = α，（7.5）

p 1 + p 2 + p 3 + p 4 = 1 ，（7.6）

（7.4 ）in（7.5 ）： p 2 = α – αβ = α（1 – β），（7.7）

（7.5 ）in（7.6）：p 3 + p 4 = 1 – α。（7.8）

因此，解释（A，B）和（A，B）的概率p 1 ，p 2 是已知的，但是对于值p 3 ，p 4，仍然只剩下一个等式。尽管知识缺失，但要找到明确的解决方案，我们改变了我们的观点。我们使用给定的方程作为优化问题解决方案的约束。

我们正在寻找一个最大化熵的分布p（对于变量p 3 ，p 4）

H（p）= – pi ln pi = – p 3 ln p 3 – p 4 ln p 4（7.9）

i = 1

+ = –

+ – +

的约束下p 3 p 4 1 α （7.8）。为什么熵函数应该最大化？因为我们缺少有关分布的信息，所以必须以某种方式添加它。我们可以修复一个临时值，例如p 3 0 。然而，确定值p 3和p更好4使得添加的信息最小化。我们可以证明（第8.4.2节和[SW76]）熵测量分布的不确定性直到恒定因子。然后，负熵是分布包含的信息量的度量。熵的最大化使分布的信息内容最小化。为了使其可视化，二维情况的熵函数在图7.2 （第125 页）中以图形方式表示。

确定约束p 3 p
4 1 下的熵的最大值

α 0，我们使用拉格朗日乘子[Ste07]的方法。拉格朗日函数读取

大号= – p 3 LN p 3 – p 4 LN p 4 + λ（P 3 + p 4 – 1 + α）。

取得关于p 3和p 4 的偏导数

∂L

∂p 3 = – LN p 3 – 1 + λ = 0 ，

∂L

∂p 4 = – LN p 4 – 1 + λ = 0

图7.2 的轮廓线图的

+ =

二维熵函数。我们看到它在整个单位正方形中是严格凸的，并且它具有孤立的全局最大值。还标记了约束 p 3 p 4 1作为条件的特殊情况

p 3 + p 4 – 1 + α = 0表示

α = 0这与此相关

并计算

p 3 = p 4 = 1 – α。

现在我们可以计算出所需的值

P（B）= P（A，B）+ P（¬ A，B）= p 1 + p 3 = αβ + 1 – α = α β

– 1

+ 2 。

代入α和β产量

P（B）= P（A） P（B | A）– 1 + 1。

对于 P（BA）的各种值， P（B）在第126 页的图7.3中示出。我们看到，在双值边缘情况下，即当 P（B）和 P（BA）取值0或1时，概率推断返回与 P（B）相同的值作为模态推理。当 A 和 B | A 都是真的， B 也是如此。一个有趣的案例是 P（A）= 0，in

这¬ 一个是真的。Modus ponens不能在这里应用，但是我们的公式导致了

值1 / 2 P（B）不管 P（B | A）。当 A 是假的时候，我们知道关于 B ，它完全反映了我们的直觉。其中的情况下 P（A）= 1和（B P | A）= 0时也涵盖命题逻辑。这里甲是真实和甲⇒乙错误的，因而甲∧¬乙真。那么 B 是假的。图中的水平线意味着在 P（B）的情况下我们不能对 B 做出预测| A）= 1 / 2，在这些点之间， P（B）为改变线性地改变 P（A）或 P（B | A）。

图7.3。曲线阵列 P（B）作为的函数的 P（A）为不同的值 P（B | A）

定理7.3 假设有一组一致的2组线性概率方程。然后，给定方程作为约束，存在唯一的熵函数最大值。由此定义的MaxEnt分布在约束下具有最小的信息内容。

从该定理可以得出，没有满足约束的分布并且具有比MaxEnt分布更高的熵。导致较低熵的微积分会产生额外的临时信息，这是不合理的。

仔细观察P（B）的上述计算，我们看到两个值p 3和p 4总是对称地出现。这意味着交换两个变量不会改变结果。因此最终结果是p 3 p 4.所谓的这两个变量的无差异导致它们被MaxEnt设置为相等。这种关系一般有效：

定义7.5如果Lagrange方程中两个或多个变量的任意交换产生等效方程，则这些变量被称为无关紧要。

2 如果存在至少一个解，即一个满足所有方程的分布，则称一组概率方程是一致的。

在给定约束下的熵的imum是在pi 1
= 的点处

pi 2 =・・・= pi k 。

定理7.4如果一组变量{ pi 1
，…，pi k }无关紧要，那么最大值 –

有了这些知识，我们可以立即设置两个变量p 3和p 4

相等（不解决拉格朗日方程）。

2.
没有显式约束的最大熵

我们现在看一下没有给出知识的情况。这意味着，除了标准化条件

p 1 + p 2 + … + pn = 1，

= =・・・= =

没有约束。因此，所有变量都无关紧要。因此我们可以将它们设置为相等，并且它遵循p 1 p 2 pn 1 / n 。3对于不确定性下的推理，这意味着如果完全缺乏知识，那么所有世界都是同样可能的。也就是说，分布是均匀的。例如，在两个变量A和B的情况下，情况就是如此

P（A，B）= P（A，¬ B）= P（¬ A，B）= P（¬ A，¬ B）= 1 / 4，

= = | =

从其中P（A）P（B） 1 / 2和P（BA） 1 / 2按照。二维情况的结果可以在第125 页的图7.2中看到，因为标记的条件正好是归一化条件。我们看到，最大熵正好在位于行（ 1 / 2 ， 1 / 2 ）。

一旦条件的价值偏离了来自统一分布的条件，世界的概率就会发生变化。我们在另一个例子中展示了这一点。使用与上面使用的相同的描述，我们仅假设

P（B | A）= β

= | = = +

众所周知。因此P（A，B）P（BA）P（A）βp（A），从该p 1 β（P
1 p 2 ）

然后我们推导出两个约束

βp 2 + （β – 1 ）p 1 = 0 ，P 1个+ p 2 + p 3 + p 4 – 1 = 0 。

3 读者可以通过在归一化条件下最大化熵来计算该结果（第 158 页的练习 7.5 ）。

图7.4 p 1，P
2，P
3，P
4 中的依赖β

一个	乙	一个⇒乙	P（A）	P（B）	P（B \| A）
Ť	Ť	Ť	1	1	1
Ť	F	F	1	0	0
F	Ť	w ^	0	1	未定义
F	F	Ť	0	0	未定义

表7.1 物质含义的真值表和命题逻辑极限的条件概率

| =

这里拉格朗日方程不再能够象征性地解决。拉格朗日方程的一个数值解得到了图7.4 所示的图像，它表明p 3 = p 4.我们已经可以在约束条件下看到这一点，其中p 3

而p 4则无动于衷。对于P（BA） 1 /
2中，我们得到的均匀分布，这

并不奇怪。这意味着该值的约束并不意味着对分布的限制。此外，我们可以看到，对于小P（BA），P（A，B）也很小。

3.
条件概率与物质意义

我们现在将证明，对于建模推理，条件概率优于逻辑中已知的物质含义（为此，也见[Ada75]）。首先，我们观察表 7.1 中所示的真值表，其中比较了概率0和1的极端情况的条件概率和材料含义。在这两种情况下都有错误的前提（直觉上，这是关键的情况），

P（B | A）是未定义的，这是有道理的。

= =

现在我们问自己，当给出任意值P（A）α和P（B）γ并且没有其他信息已知时，P（BA）采用哪个值。我们再次在给定约束下最大化熵。正如上面我们设置

p 1 = P（A，B），p 2 = P（A，¬B），p 3 = P（¬A，B），p 4 = P（¬A，¬B）

并作为约束获得

p 1 + p 2 = α，（7.10）

p 1 + p 3 = γ，（7.11）

p 1 + p 2 + p 3 + p 4 = 1 。（7.12）

有了这个，我们使用熵最大化计算（参见第
159 页的练习 7.8 ）

p 1 = αγ，p 2 = α（1 – γ），p 3 = γ（1 – α），p 4 =（1 – α）（1 – γ）。

= =・

从p 1 αγ它遵循P（A，B）P（A）P（B） ，这意味着，甲和乙是独立的。因为没有连接A和B的约束，MaxEnt原则导致这些变量的独立性。第128 页的表7.1 的右半部分使这更容易理解。从定义来看

P（B | A）=

P（A，B）P（A）

| = = |

对于情况P（A） 0，即当前提不是假时，因为A和B是独立的，即P（BA）P（B）。对于P（A） 0的情况，P（BA）保持不确定。

4.
最大墒的系统

如前所述，由于熵函数的非线性，MaxEnt优化通常不能象征性地执行非平凡问题。因此，开发了两种用于数值熵最大化的系统。第一个系统，SPIRIT（转型中的推理网络中的对称概率内在推理，www.xspirit.de），[RM96]是在FernuniversitätHagen建立的。第二，PIT（概率感应工具）是在慕尼黑技术大学[Sch96，ES99，SE00]开发的。我们现在简要介绍一下PIT。

PIT系统使用顺序二次规划（SQP）方法在给定约束下找到熵函数的极值。作为输入，PIT期望包含约束的数据。例如，约束 P（A）= α 和

P（B | A）= 来自Sect的 β 。7.2.1 有表格