强化学习:摘要和展望

点击打开微信,马上办理ETC

 

今天,我们可以使用运行良好且已建立的学习算法来训练我们的机器。然而,人类培训师或开发人员的任务仍然是复杂应用程序的要求。如何构建机器人的训练有很多可能性,没有经验就不会成功。这种实验在实践中可能非常繁琐,因为每个新的学习项目都必须进行设计和编程。这里需要的工具除了各种学习算法外,还为教练提供了将这些与传统编程和演示学习相结合的能力。这种工具中的第一个是教学盒[ESCT09],除了广泛的程序库之外,它还提供用于学习项目配置和机器人与环境之间通信的模板。例如,除了来自环境的反馈之外,人类教师还可以给予机器人来自键盘或通过语音界面的进一步反馈。

强化学习是一个迷人且活跃的研究领域,将来会越来越多地被使用。越来越多的机器人控制系统,以及其他程序,将通过环境反馈学习。今天,所提出的算法存在多种变化,并且还存在完全不同的算法。缩放问题仍未解决。对于具有较少自由度的小动作和状态空间,可以实现令人印象深刻的结果。如果状态空间中的自由度数增加到18,例如对于简单的类人机器人,则学习变得非常昂贵。

对于进一步的基础讲座,我们建议在Tom Mitchell的书[Mit97]中简要介绍强化学习。SuttonBarto [SB98]的标准作品是全面而全面的,KaelblingLittmanMoore
[KLM96]
的调查文章也是如此。

 

图片


 

点击打开微信,马上办理ETC


意见反馈

发表评论