深空探测器多智能体强化学习自主任务规划OA北大核心CSTPCD
针对深空探测器执行附着任务时各子系统协同规划自主性、快速性和自适应性的要求,提出一种基于近端策略优化方法的多智能体强化学习协同规划,将单智能体近端策略优化算法与多智能体混合式协作机制相融合,设计了一种多智能体自主任务规划模型,并引入噪声正则化优势值解决多智能体集中训练中协同策略过拟合的问题。仿真结果表明,多智能体强化学习自主任务规划方法能根据实时环境变化,对智能自主优化小天体附着任务的协作策略适时调整,与改进前的算法相比提高了任务规划成功率和规划解的质量,缩短了任务规划的时间。
孙泽翼;王彬;胡馨月;熊新;金怀平;
昆明理工大学信息工程与自动化学院,昆明650500昆明理工大学信息工程与自动化学院,昆明650500 云南省人工智能重点实验室,昆明650500
计算机与自动化
多智能体强化学习深空探测自主任务规划近端策略优化小天体附着
《深空探测学报(中英文)》 2024 (003)
P.244-255 / 12
空间碎片专项(KJSP2020020302)。
评论