首页|期刊导航|南华大学学报(理工版)|基于隐偏向信息学习的强化学习算法

基于隐偏向信息学习的强化学习算法OA

Reinforcement Learning Based on Hidden Biasing Information Learning

中文摘要

传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率.

李学勇;欧阳柳波;李国徽

长沙大学数学与信息科学系,湖南,长沙,410003湖南大学软件学院,湖南,长沙,410082华中科技大学计算机科学与技术学院,湖北,武汉,430074

计算机与自动化

强化学习Markov决策过程偏向隐偏向信息SARSA(λ)算法

《南华大学学报(理工版)》 2004 (2)

10-16,7

国家自然科学基金资助项目(6020317)国家科技基础性研究专项资金项目(2001DE20016-02-04).

评论

您当前未登录!去登录点击加载更多...