强化学习：强化学习：勘探开发

点击打开微信，马上办理ETC

到目前为止，对于Q学习，仅给出了粗略的算法模式。特别缺乏的是每次选择起始状态的描述以及在图 10.11 （第 269 页）的内环中执行的操作。对于下一步行动的选择，有两种可能性。在可能的行动中，可以随机选择一个。从长远来看，这会导致对所有可能的行动或政策进行统一探索，但收敛速度很慢。替代

这是以前学过的开采Q 值。这里代理人总是

选择具有最高的动作Q 值。这导致相对快速的收敛

特定轨迹的一般性。然而，其他路径一直没有被访问到最后。在极端情况下，我们可以获得非最优政策。在西奥REM 10.1 页 269 它因此要求每个国家的行动对被访问无限次。建议在开始时将勘探和开采与高勘探部分结合使用，并随着时间的推移逐渐减少。

起始状态的选择也会影响学习速度。在第 269
页的图 10.12中的前三张图片中，我们可以清楚地看到，对于第一次迭代，只有状态
– 动作对附近的Q 值通过立即奖励而改变。从这种观点开始越来越远，导致了许多不必要的工作。这表明将关于状态 – 行动对的先验知识与即时奖励转移到这些点附近的起始状态。在学习过程中，可以选择更远的起始状态。

点击打开微信，马上办理ETC

意见反馈

发表评论 取消回复

发表评论取消回复