基于模仿学习和强化学习的启发式多智能体路径规划OA
多智能体路径规划(Multi-Agent Path Finding,MAPF)扩展到大型动态环境中是一个越来越有挑战的问题。现实世界中,环境动态变化往往需要实时重新规划路径。在部分可观察环境中,使用强化学习方法学习分散的策略解决MAPF问题表现出较大潜力。针对智能体之间如何学会合作和环境奖励稀疏问题,提出基于模仿学习和强化学习的启发式多智能体路径规划算法。实验表明,该方法在高密度障碍环境中具有较好的性能和扩展性。
郭传友;刘志飞;田景志;刘先忠;
中国人民解放军61150部队,陕西榆林719000
计算机与自动化
多智能体路径规划强化学习模仿学习启发式
《网络安全与数据治理》 2024 (009)
P.33-40 / 8
评论