基于隐偏向信息学习的强化学习算法OA
Reinforcement Learning Based on Hidden Biasing Information Learning
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率.
李学勇;欧阳柳波;李国徽
长沙大学数学与信息科学系,湖南,长沙,410003湖南大学软件学院,湖南,长沙,410082华中科技大学计算机科学与技术学院,湖北,武汉,430074
计算机与自动化
强化学习Markov决策过程偏向隐偏向信息SARSA(λ)算法
《南华大学学报(理工版)》 2004 (2)
10-16,7
国家自然科学基金资助项目(6020317)国家科技基础性研究专项资金项目(2001DE20016-02-04).
评论