多步截断SARSA强化学习算法OA

An algorithm of reinforcement learning for a truncated multi-step SARSA

中文摘要

提出了一种新的on-policy强化学习算法,其基本思想是按照一定学习策略,利用κ(κ＞1)步的信息来估计TD(λ)回报值,从而加快对行动最优值估计的更新.更新速度比SARSA(0)算法快,但不象SARSA(λ)需要大量的计算.

作者：李春贵;林海涛;刘永信

作者单位：广西工学院计算机系,广西,柳州,545006广西工学院计算机系,广西,柳州,545006内蒙古大学自动化系,内蒙,呼和浩特,010021

分类：计算机与自动化

中文关键词：强化学习Markov决策过程Q学习SARSA学习

刊名：《广西工学院学报》 2002 (1)

页码/页数：1-4,4

您当前未登录！

点击加载更多...