首页|期刊导航|广西工学院学报|多步截断SARSA强化学习算法

多步截断SARSA强化学习算法OA

An algorithm of reinforcement learning for a truncated multi-step SARSA

中文摘要

提出了一种新的on-policy强化学习算法,其基本思想是按照一定学习策略,利用κ(κ>1)步的信息来估计TD(λ)回报值,从而加快对行动最优值估计的更新.更新速度比SARSA(0)算法快,但不象SARSA(λ)需要大量的计算.

李春贵;林海涛;刘永信

广西工学院计算机系,广西,柳州,545006广西工学院计算机系,广西,柳州,545006内蒙古大学自动化系,内蒙,呼和浩特,010021

计算机与自动化

强化学习Markov决策过程Q学习SARSA学习

《广西工学院学报》 2002 (1)

1-4,4

评论

您当前未登录!去登录点击加载更多...