多步截断SARSA强化学习算法OA
An algorithm of reinforcement learning for a truncated multi-step SARSA
提出了一种新的on-policy强化学习算法,其基本思想是按照一定学习策略,利用κ(κ>1)步的信息来估计TD(λ)回报值,从而加快对行动最优值估计的更新.更新速度比SARSA(0)算法快,但不象SARSA(λ)需要大量的计算.
李春贵;林海涛;刘永信
广西工学院计算机系,广西,柳州,545006广西工学院计算机系,广西,柳州,545006内蒙古大学自动化系,内蒙,呼和浩特,010021
计算机与自动化
强化学习Markov决策过程Q学习SARSA学习
《广西工学院学报》 2002 (1)
1-4,4
评论