机器学习和数据挖掘摘要

历史地图研究

5年前

我们已经完全涵盖了已建立的监督学习领域的几种算法，包括决策树学习，贝叶斯网络和最近邻法。这些算法在各种应用中都是稳定且有效的，因此属于AI和数据挖掘的标准库。对于聚类算法也是如此，聚类算法在没有“监督者”的情况下工作，并且可以在例如搜索引擎应用中找到。强化学习作为机器学习的另一个领域也不使用主管。与超级学习相比，学习者在训练数据中接收正确的动作或答案作为标签，仅在强化学习中，然后从环境中接收正面或负面的反馈。在Chap。10我们将展示它是如何工作的。

有监督的学习现在是一个成熟的领域，有很多成功的应用。对于带有连续标签的数据的监督学习，可以使用任何函数近似算法。因此，有许多来自数学和计算机科学领域的算法。在Sect。9我们将介绍各种类型的神经网络，最小二乘算法和支持向量机，

1.
摘要215

这些都是函数逼近器。如今，高斯过程非常普遍，因为它们非常通用且易于应用，并为用户提供输出值不确定性的估计[RW06]。

以下分类法概述了最重要的学习算法及其分类。

监督学习

•

懒惰的学习

§
k最近邻法（分类近似）

§
局部加权回归（近似）

•

§ 基于案例的学习（分类近似）渴望学习

§ 决策树归纳（分类）

§
学习贝叶斯网络（分类近似）

§
神经网络（分类近似）

§
高斯过程（分类近似）

§
小波，样条，径向基函数，。。。

•

无监督学习（聚类）最近邻算法最远邻居算法k均值

•

神经网络

强化学习

•

价值迭代Q学习

•

TD学习

•

政策梯度方法神经网络

然而，当使用一组固定的已知属性时，有关监督学习的说法才是真实的。在激烈的研究中，一个有趣但仍然开放的领域是自动特征选择。在Sect。8.4 ，为了学习决策树，我们提出了一种计算属性信息增益的算法，根据它们的相关性对属性进行分类，并仅使用那些提高分类质量的属性。使用这种类型的方法，可以从可能较大的基本集中自动选择相关属性。但是，必须手动选择此基本集。

仍然是开放的，也没有明确定义的是机器如何找到新属性的问题。让我们想象一个应该摘苹果的机器人。为此，他必须学会区分成熟和未成熟的苹果和其他物体。传统上，我们将确定某些属性，例如像素区域的颜色和形式，然后使用手动分类的图像训练学习算法。例如，也可以使用图像的所有像素作为输入直接训练神经网络，然而，高分辨率与严重的计算时间问题相关联。这里需要自动提出相关特征建议的方法。但这仍然是科幻小说。

聚类提供了一种特征选择方法。在训练苹果识别机之前，我们让聚类运行在数据上。对于苹果和非苹果类的（监督）学习，输入不再是所有像素，而是仅在聚类期间找到的类，可能与其他属性一起。无论如何聚类都可以用于功能的自动，创造性“发现”。但是，不确定发现的特征是否相关。

以下问题更加困难：假设用于苹果识别的摄像机仅传输黑白图像。这个任务再也无法解决了。如果机器在自己的帐户上具有创造性，那将是很好的，例如通过建议应该用彩色相机替换相机。今天这会要求太多。

除了关于机器学习的所有子领域的专业作品外，还有优秀的教科书[Mit97，Bis06，Alp04，DHS01，HTF09]。对于当前的研究结果，请查看免费提供的机器学习研究期刊（http://jmlr.csail.mit.edu），机器学习期刊以及国际机器学习会议的会议记录（建议使用ICML）。对于每个学习算法的开发者来说，加州大学尔湾分校（UCI）的机器学习库[DNM98]很有意思，它有大量的学习算法和数据挖掘工具的训练和测试数据。MLOSS代表机器学习开源软件，是一个提供免费软件链接的绝佳目录（www.mloss.org）。

点击打开微信，马上办理ETC

意见反馈