面向稀疏奖励的机器人操作技能学习OA北大核心CSTPCD

中文摘要

基于深度强化学习的机器人操作技能学习成为研究热点,但由于任务的稀疏奖励性质,学习效率较低.本文提出了基于元学习的双经验池自适应软更新事后经验回放方法,并将其应用于稀疏奖励的机器人操作技能学习问题求解.首先,在软更新事后经验回放算法的基础上推导出可以提高算法效率的精简值函数,并加入温度自适应调整策略,动态调整温度参数以适应不同的任务环境;其次,结合元学习思想对经验回放进行分割,训练时动态调整选取真实采样数据和构建虚拟数的比例,提出了DAS-HER方法;然后,将DAS-HER算法应用到机器人操作技能学习中,构建了一个稀疏奖励环境下具有通用性的机器人操作技能学习框架;最后,在Mujoco下的Fetch和Hand环境中,进行了8项任务的对比实验,实验结果表明,无论是在训练效率还是在成功率方面,本文算法表现均优于其他算法.

作者：吴培良;张彦;毛秉毅;陈雯柏;高国伟;

作者单位：燕山大学信息科学与工程学院,河北秦皇岛066004 河北省计算机虚拟技术与系统集成重点实验室,河北秦皇岛066004北京信息科技大学自动化学院,北京100192

分类：计算机与自动化

中文关键词：机器人操作技能学习强化学习稀疏奖励最大熵方法自适应温度参数元学习

刊名：《控制理论与应用》 2024 (001)

页码/页数：P.99-108 / 10

基金：国家重点研发计划项目(2018YFB1308300);国家自然科学基金区域联合基金项目(U20A20167);北京市自然科学基金项目(4202026);河北省自然科学基金项目(F202103079)资助.

DOI：10.7641/CTA.2022.20121

面向稀疏奖励的机器人操作技能学习OA北大核心CSTPCD

评论