首页|期刊导航|控制理论与应用|对手类型未知情况下的两人零和马尔科夫博弈决策

对手类型未知情况下的两人零和马尔科夫博弈决策OA北大核心CSTPCD

中文摘要

本文研究一类典型的非完全信息博弈问题—-对手类型未知的两人零和马尔科夫博弈,其中对手类型多样且每次博弈开始前无法得知对手类型.文中提出了一种基于模型的多智能体强化学习算法—-对手辨识的极大极小Q学习(DOMQ).该算法首先建立对手相关环境的经验模型,再使用经验模型学习纳什均衡策略,己方智能体在实际博弈中根据经验模型判断对手类型,从而使用相应的纳什均衡策略,以保证收益下限.本文所提的DOMQ算法只需要在采样阶段的每轮博弈结束后得知对手的类型,除此之外无需知道任何环境的信息.仿真实验验证了所提算法的有效性.

王成意;朱进;赵云波;

中国科学技术大学信息科学技术学院,安徽合肥230026

计算机与自动化

两人零和马尔科夫博弈非完全信息极大极小Q学习纳什均衡多智能体强化学习

《控制理论与应用》 2024 (011)

P.2131-2138 / 8

国家重点研发计划项目(2018AAA0100802);安徽省自然科学基金项目(2008085MF198)资助.

10.7641/CTA.2023.20630

评论