强化学习:强化学习:勘探开发

点击打开微信,马上办理ETC

 

到目前为止,对于Q学习,仅给出了粗略的算法模式。特别缺乏的是每次选择起始状态的描述以及在图 10.11 (第 269 页)的内环中执行的操作。对于下一步行动的选择,有两种可能性。在可能的行动中,可以随机选择一个。从长远来看,这会导致对所有可能的行动或政策进行统一探索,但收敛速度很慢。替代

这是以前学过的开采Q 。这里代理人总是

选择具有最高的动作Q 。这导致相对快速的收敛

特定轨迹的一般性。然而,其他路径一直没有被访问到最后。在极端情况下,我们可以获得非最优政策。在西奥REM 10.1 269 它因此要求每个国家的行动对被访问无限次。建议在开始时将勘探和开采与高勘探部分结合使用,并随着时间的推移逐渐减少。

起始状态的选择也会影响学习速度。在第 269
页的图 10.12中的前三张图片中,
我们可以清楚地看到,对于第一次迭代,只有状态
动作对附近的Q 值通过立即奖励而改变。从这种观点开始越来越远,导致了许多不必要的工作。这表明将关于状态行动对的先验知识与即时奖励转移到这些点附近的起始状态。在学习过程中,可以选择更远的起始状态。

 

图片


 

点击打开微信,马上办理ETC


意见反馈

发表评论