|国家科技期刊平台
首页|期刊导航|自动化学报|基于距离信息的追逃策略:信念状态连续随机博弈

基于距离信息的追逃策略:信念状态连续随机博弈OA北大核心CSTPCD

中文摘要

追逃问题的研究在对抗、追踪以及搜查等领域极具现实意义.借助连续随机博弈与马尔科夫决策过程(Markov decision process, MDP),研究使用测量距离求解多对一追逃问题的最优策略.在此追逃问题中,追捕群体仅领导者可测量与逃逸者间的相对距离,而逃逸者具有全局视野.追逃策略求解被分为追博弈与马尔科夫决策两个过程.在求解追捕策略时,通过分割环境引入信念区域状态以估计逃逸者位置,同时使用测量距离对信念区域状态进行修正,构建起基于信念区域状态的连续随机追博弈,并借助不动点定理证明了博弈平稳纳什均衡策略的存在性.在求解逃逸策略时,逃逸者根据全局信息建立混合状态下的马尔科夫决策过程及相应的最优贝尔曼方程.同时给出了基于强化学习的平稳追逃策略求解算法,并通过案例验证了该算法的有效性.

陈灵敏;冯宇;李永强;

浙江工业大学信息工程学院,杭州313000

数学

追逃问题信念区域状态连续随机博弈马尔科夫决策过程强化学习

《自动化学报》 2024 (004)

P.828-840 / 13

国家自然科学基金(61973276,62073294);浙江省自然科学基金(LZ21F030003)资助。

10.16383/j.aas.c230018

评论