基于相似度加权的无模型元强化学习方法OACSTPCD
Model-agnostic Meta Reinforcement Learning Based on Similarity Weighting
强化学习在游戏对弈、机器人控制等领域内已取得良好成效.为进一步提高训练效率,将元学习拓展至强化学习中,由此所产生的元强化学习已成为当前强化学习领域中的研究热点.元知识质量是决定元强化学习效果的关键因素,基于梯度的元强化学习以模型初始参数为元知识指导后续学习.为提高元知识质量,提出了一种通用元强化学习方法,通过加权机制显式表现训练过程中子任务对训练效果的贡献.该方法利用不同子任务所得的梯度更新向量与任务集内所有梯度更新向量的相似性作为更新权重,完善…查看全部>>
Reinforcement learning has achieved excellent performance in the fields of game games and robotics control.In order to further improve the training efficiency,meta-learning is extended to reinforcement learning,the resulting meta-reinforcement learning has become a research hotspot in the field of reinforcement learning.The quality of meta-knowledge is the key factor determining the effect of meta-reinforcement learning,and gradient-based meta-reinforcement …查看全部>>
赵春宇;赖俊;陈希亮;张人文
陆军工程大学 指挥控制工程学院,江苏 南京 210007陆军工程大学 指挥控制工程学院,江苏 南京 210007陆军工程大学 指挥控制工程学院,江苏 南京 210007陆军工程大学 指挥控制工程学院,江苏 南京 210007
计算机与自动化
元学习强化学习元强化学习梯度下降无模型
meta-learningreinforcement learningmeta-reinforcement learninggradient descentmodel agnostic
《计算机技术与发展》 2024 (5)
133-140,8
国家自然科学基金项目(61806221)
评论