结合先验知识与深度强化学习的机械臂抓取研究OACSTPCD
在应用深度强化学习(deep reinforcement learning,DRL)实现机械臂自主行为决策过程中,高维连续的状态-动作空间易引起数据采样效率低及经验样本质量低,最终导致奖赏函数收敛速度慢、学习时间长。针对此问题,提出一种引入先验知识的DRL模型。该模型与机械臂逆运动学相结合,在DRL采样阶段引入先验知识指导智能体(Agent)采样,解决学习过程中的数据采样效率低、经验样本质量低的问题;同时通过网络参数迁移的方式验证引入先验知识的D…查看全部>>
缪刘洋;朱其新;丁正凯;王旭
苏州科技大学电子与信息工程学院,江苏苏州215009苏州科技大学机械工程学院/建筑智慧节能江苏省重点实验室/苏州市共融机器人技术重点实验室,江苏苏州215009苏州科技大学电子与信息工程学院/建筑智慧节能江苏省重点实验室,江苏苏州215009苏州科技大学电子与信息工程学院,江苏苏州215009
计算机与自动化
机械臂先验知识深度强化学习网络迁移
《西安工程大学学报》 2023 (4)
P.92-101,10
评论