|国家科技期刊平台
首页|期刊导航|控制理论与应用|结合优势结构和最小目标Q值的深度强化学习导航算法

结合优势结构和最小目标Q值的深度强化学习导航算法OA北大核心CSTPCD

中文摘要

针对现有基于策略梯度的深度强化学习方法应用于办公室、走廊等室内复杂场景下的机器人导航时,存在训练时间长、学习效率低的问题,本文提出了一种结合优势结构和最小化目标Q值的深度强化学习导航算法.该算法将优势结构引入到基于策略梯度的深度强化学习算法中,以区分同一状态价值下的动作差异,提升学习效率,并且在多目标导航场景中,对状态价值进行单独估计,利用地图信息提供更准确的价值判断.同时,针对离散控制中缓解目标Q值过估计方法在强化学习主流的Actor-Critic框架下难以奏效,设计了基于高斯平滑的最小目标Q值方法,以减小过估计对训练的影响.实验结果表明本文算法能够有效加快学习速率,在单目标、多目标连续导航训练过程中,收敛速度上都优于柔性演员评论家算法(SAC),双延迟深度策略性梯度算法(TD3),深度确定性策略梯度算法(DDPG),并使移动机器人有效远离障碍物,训练得到的导航模型具备较好的泛化能力.

朱威;洪力栋;施海东;何德峰;

浙江工业大学信息工程学院,浙江杭州312000

计算机与自动化

强化学习移动机器人导航优势结构最小化目标Q值

《控制理论与应用》 2024 (004)

P.716-728 / 13

国家自然科学基金项目(62173303);浙江省自然科学基金项目(LY21F010009)资助.

10.7641/CTA.2023.20293

评论