基于隐偏向信息学习的强化学习算法OA

Reinforcement Learning Based on Hidden Biasing Information Learning

中文摘要

传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率.

作者：李学勇;欧阳柳波;李国徽

作者单位：长沙大学数学与信息科学系,湖南,长沙,410003湖南大学软件学院,湖南,长沙,410082华中科技大学计算机科学与技术学院,湖北,武汉,430074

分类：计算机与自动化

中文关键词：强化学习Markov决策过程偏向隐偏向信息SARSA(λ)算法

刊名：《南华大学学报(理工版)》 2004 (2)

页码/页数：10-16,7

基金：国家自然科学基金资助项目(6020317)国家科技基础性研究专项资金项目(2001DE20016-02-04).

您当前未登录！

去登录

点击加载更多...

基于隐偏向信息学习的强化学习算法OA

Reinforcement Learning Based on Hidden Biasing Information Learning

评论