基于深度强化学习的智能对手自主空战决策技术OACSCD
Research on Autonomous Air Combat Decision-making Technology of Intelligent Opponents Based on Deep Reinforcement Learning
为提升空战训练对手的智能性与自主性,提升空战训练效果.针对空战战术训练智能对手自主空战决策问题,提出一种基于深度强化学习的智能体训练方法,采用最大熵强化学习(SAC)算法平衡策略探索与利用的优势,引入自博弈和多智能体联盟训练方法提升空战智能体策略的多样性和鲁棒性.针对一对一近距格斗空战场景建立智能博弈框架及奖励函数,仿真结果表明,基于零经验训练得到的智能体能够有效自主机动决策并实施近距导弹攻击,产生较好的战术效果,证明该方法在一对一近距格斗空战智能体训练中的有效性.
杨凯达;杨兴昊;刘钊
解放军 95808 部队,甘肃 酒泉 735006中国航空研究院,北京 100012解放军 95808 部队,甘肃 酒泉 735006
计算机与自动化
自主空战决策智能对手强化学习SAC
autonomous air combat decision-makingintelligent opponentsreinforcement learningSAC
《火力与指挥控制》 2023 (10)
27-33,7
装备综合研究重点项目资助课题(××2022A000112)
评论