强化学习：摘要和展望 – 我的研究心得

点击打开微信，马上办理ETC

今天，我们可以使用运行良好且已建立的学习算法来训练我们的机器。然而，人类培训师或开发人员的任务仍然是复杂应用程序的要求。如何构建机器人的训练有很多可能性，没有经验就不会成功。这种实验在实践中可能非常繁琐，因为每个新的学习项目都必须进行设计和编程。这里需要的工具除了各种学习算法外，还为教练提供了将这些与传统编程和演示学习相结合的能力。这种工具中的第一个是教学盒[ESCT09]，除了广泛的程序库之外，它还提供用于学习项目配置和机器人与环境之间通信的模板。例如，除了来自环境的反馈之外，人类教师还可以给予机器人来自键盘或通过语音界面的进一步反馈。

强化学习是一个迷人且活跃的研究领域，将来会越来越多地被使用。越来越多的机器人控制系统，以及其他程序，将通过环境反馈学习。今天，所提出的算法存在多种变化，并且还存在完全不同的算法。缩放问题仍未解决。对于具有较少自由度的小动作和状态空间，可以实现令人印象深刻的结果。如果状态空间中的自由度数增加到18，例如对于简单的类人机器人，则学习变得非常昂贵。

对于进一步的基础讲座，我们建议在Tom Mitchell的书[Mit97]中简要介绍强化学习。Sutton和Barto [SB98]的标准作品是全面而全面的，Kaelbling，Littman和Moore
[KLM96]的调查文章也是如此。

点击打开微信，马上办理ETC

意见反馈

发表评论 取消回复

发表评论取消回复