机器学习：强化学习 – 我的研究心得

强化学习是一种理解和自动化目标导向学习和决策的计算方法。它正在学习如何做以及如何将情境映射到行动。结果是最大化数字奖励信号。学习者不会被告知要采取哪种行动，而是必须发现哪种行为会产生最大的回报。

强化学习不是通过表征学习算法来定义的，而是通过表征学习问题来定义的。任何非常适合解决我们认为是强化学习算法的问题的算法。强化学习不同于有监督学习，即所研究的学习方式。

有监督的学习是从一些知识渊博的外部主管提供的例子中学习的。这是一种重要的学习方式，但仅凭它不足以从交互中学习。在交互式问题中，获得所需行为的示例通常是不切实际的，这些行为既正确又代表了代理必须采取行动的所有情况。在未知领域 – 人们期望学习最有益 – 代理人必须能够从自己的经验中学习。

在强化学习中而不是在其他类型的学习中出现的挑战之一是探索和开发之间的权衡。为了获得大量奖励，强化学习代理人必须更喜欢过去曾尝试过的行为，并且发现它们能够有效地产生奖励。但要发现此类行为，必须尝试之前未选择的行动。代理人必须利用它已经知道的东西才能获得奖励，但它也必须进行探索，以便在将来做出更好的行动选择。

困境在于，任何剥削和探索都不能完全在没有失败的情况下进行。代理必须尝试各种操作，并逐渐支持那些看起来最好的操作。在随机任务中，必须多次尝试每个动作以可靠地估计其预期奖励。数十年来，数学家一直在深入研究勘探开发的困境。强化学习的另一个关键特征是它明确地考虑了目标导向的代理与不确定环境相互作用的整个问题。这与解决子问题的许多方法形成对比，而不解决它们如何适合更大的图像。例如，我们已经提到很多机器学习研究都关注有监督学习而没有明确说明这种能力最终会如何有用。其他研究人员已经制定了具有总体目标的规划理论，但没有考虑规划在实时决策中的作用，也没有考虑规划所需的预测模型来自何处的问题。尽管这些方法已经产生了许多有用的结果，但是它们对孤立子问题的关注是一个重要的限制。通过从一个完整的，互动的目标寻求代理开始，强化学习采取相反的策略。所有强化学习代理都有明确的目标，可以感知环境的各个方面，并可以选择影响其环境的行为。其他研究人员已经制定了具有总体目标的规划理论，但没有考虑规划在实时决策中的作用，也没有考虑规划所需的预测模型来自何处的问题。尽管这些方法已经产生了许多有用的结果，但是它们对孤立子问题的关注是一个重要的限制。通过从一个完整的，互动的目标寻求代理开始，强化学习采取相反的策略。所有强化学习代理都有明确的目标，可以感知环境的各个方面，并可以选择影响其环境的行为。其他研究人员已经制定了具有总体目标的规划理论，但没有考虑规划在实时决策中的作用，也没有考虑规划所需的预测模型来自何处的问题。尽管这些方法已经产生了许多有用的结果，但是它们对孤立子问题的关注是一个重要的限制。通过从一个完整的，互动的目标寻求代理开始，强化学习采取相反的策略。所有强化学习代理都有明确的目标，可以感知环境的各个方面，并可以选择影响其环境的行为。他们对孤立子问题的关注是一个重大的局限。通过从一个完整的，互动的目标寻求代理开始，强化学习采取相反的策略。所有强化学习代理都有明确的目标，可以感知环境的各个方面，并可以选择影响其环境的行为。他们对孤立子问题的关注是一个重大的局限。通过从一个完整的，互动的目标寻求代理开始，强化学习采取相反的策略。所有强化学习代理都有明确的目标，可以感知环境的各个方面，并可以选择影响其环境的行为。

此外，通常从一开始就假设代理人必须在其面临的环境存在很大不确定性的情况下运作。当强化学习涉及规划时，它必须解决规划和实时行动选择之间的相互作用，以及如何获取和改进环境模型的问题。当强化学习涉及有监督的学习时，它会出于非常具体的原因，确定哪些能力是关键的，哪些不是。为了学习研究以取得进步，必须分离和研究重要的子问题，但它们应该是由完整的，互动的，寻求目标的代理人中的明确角色所激发的子问题，即使整个代理人的所有细节都不能尚未填写。

点击打开微信，马上办理ETC

意见反馈

发表评论 取消回复

发表评论取消回复