首页|期刊导航|工程科学学报|基于深度强化学习的无人机集群数字孪生编队避障

基于深度强化学习的无人机集群数字孪生编队避障OA北大核心CSTPCD

中文摘要

无人机集群在各个领域中扮演着重要角色,具有丰富的应用场景.然而,将深度强化学习方法应用于自主无人机面临着诸多严峻挑战.本文基于多智能体深度强化学习,通过使用局部信息建立单个无人机的状态空间,并使用多智能体近端策略优化(Multi-agent proximal policy optimization,MAPPO)的在线策略算法来训练策略网络,从而克服了环境的不确定性和对全局信息的依赖.同时,引入了数字孪生的概念,为资源紧张型算法提供了新思路.为了解决采样困难和资源紧张的问题,基于数字孪生技术,构建了一个用于无人机编队避障策略模型训练的架构.首先,构建了多个数字孪生环境,用于强化学习算法在任务开始之前进行交互采样的预训练,以使集群具备基本的任务能力.然后,使用在真实环境中采集的数据进行补充训练,使得集群能够更好地完成任务.对采用这种两阶段训练架构的效果进行了对比,同时与其他策略算法进行比较,验证了MAPPO的样本效率性能.最后,设计了实际飞行验证测试,验证了从孪生环境中获得的策略模型的实用性和可靠性.

作者：张宇宸;段海滨;魏晨;

作者单位：北京航空航天大学飞行器控制一体化技术重点实验室,北京100083

分类：金属材料

中文关键词：数字孪生深度强化学习无人机编队控制避障

刊名：《工程科学学报》 2024 (007)

页码/页数：P.1187-1196 / 10

基金： 科技创新2030-“新一代人工智能”重大项目(2018AAA0100803);国家自然科学基金资助项目(T2121003,91948204,U20B2071)。

DOI：10.13374/j.issn2095-9389.2023.09.28.005

基于深度强化学习的无人机集群数字孪生编队避障OA北大核心CSTPCD

评论