|国家科技期刊平台
首页|期刊导航|工程科学学报|基于强化学习的多无人车协同围捕方法

基于强化学习的多无人车协同围捕方法OA北大核心CSTPCD

中文摘要

本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;针对网络结构中引入LSTM所导致的状态空间维度增大、效率低的问题,提出引入注意力机制,通过对状态空间进行注意力权重的计算和选择,将注意力集中在与任务相关的关键状态上,从而约束状态空间维度并保证网络的稳定性,实现多无人车之间稳定高效的合作并提高算法的训练效率.为解决协同围捕任务中奖励稀疏的问题,提出通过混合奖励函数将奖励函数分为个体奖励和协同奖励,通过引入个体奖励和协同奖励,无人车在围捕过程中可以获得更频繁的奖励信号.个体奖励通过引导无人车向目标靠近来激励其运动行为,而协同奖励则激励群体无人车共同完成围捕任务,从而进一步提高算法的收敛速度.最后,通过仿真和实验表明,该方法具有更快的收敛速度,相较于SAC算法,围捕时间缩短15.1%,成功率提升7.6%.

苏牧青;王寅;濮锐敏;余萌;

南京航空航天大学航天学院,南京211106南京航空航天大学航天学院,南京211106 南京航空航天大学航空航天结构力学及控制全国重点实验室,南京210016

金属材料

无人车协同围捕柔性执行者-评论家算法注意力机制奖励函数设计

《工程科学学报》 2024 (007)

P.1237-1250 / 14

航空科学基金资助项目(ASFC-20175152);南京航空航天大学实验技术研究与开发课题资助项目(SYJS202311Z)。

10.13374/j.issn2095-9389.2023.09.15.004

评论