对手类型未知情况下的两人零和马尔科夫博弈决策OA北大核心CSTPCD
本文研究一类典型的非完全信息博弈问题—-对手类型未知的两人零和马尔科夫博弈,其中对手类型多样且每次博弈开始前无法得知对手类型.文中提出了一种基于模型的多智能体强化学习算法—-对手辨识的极大极小Q学习(DOMQ).该算法首先建立对手相关环境的经验模型,再使用经验模型学习纳什均衡策略,己方智能体在实际博弈中根据经验模型判断对手类型,从而使用相应的纳什均衡策略,以保证收益下限.本文所提的DOMQ算法只需要在采样阶段的每轮博弈结束后得知对手的类型,除此之外无需知道任何环境的信息.仿真实验验证了所提算法的有效性.
王成意;朱进;赵云波;
中国科学技术大学信息科学技术学院,安徽合肥230026
计算机与自动化
两人零和马尔科夫博弈非完全信息极大极小Q学习纳什均衡多智能体强化学习
《控制理论与应用》 2024 (011)
P.2131-2138 / 8
国家重点研发计划项目(2018AAA0100802);安徽省自然科学基金项目(2008085MF198)资助.
评论