首页|期刊导航|控制理论与应用|对手类型未知情况下的两人零和马尔科夫博弈决策

对手类型未知情况下的两人零和马尔科夫博弈决策OA北大核心CSTPCD

中文摘要

本文研究一类典型的非完全信息博弈问题—-对手类型未知的两人零和马尔科夫博弈,其中对手类型多样且每次博弈开始前无法得知对手类型.文中提出了一种基于模型的多智能体强化学习算法—-对手辨识的极大极小Q学习(DOMQ).该算法首先建立对手相关环境的经验模型,再使用经验模型学习纳什均衡策略,己方智能体在实际博弈中根据经验模型判断对手类型,从而使用相应的纳什均衡策略,以保证收益下限.本文所提的DOMQ算法只需要在采样阶段的每轮博弈结束后得知对手的类型,除此之…查看全部>>

作者：王成意;朱进;赵云波

作者单位：中国科学技术大学信息科学技术学院,安徽合肥230026中国科学技术大学信息科学技术学院,安徽合肥230026中国科学技术大学信息科学技术学院,安徽合肥230026

分类：计算机与自动化

中文关键词：两人零和马尔科夫博弈非完全信息极大极小Q学习纳什均衡多智能体强化学习

刊名：《控制理论与应用》 2024 (11)

页码/页数：P.2131-2138,8

基金：国家重点研发计划项目(2018AAA0100802)安徽省自然科学基金项目(2008085MF198)资助.

DOI：10.7641/CTA.2023.20630

您当前未登录！

去登录

点击加载更多...

对手类型未知情况下的两人零和马尔科夫博弈决策OA北大核心CSTPCD

评论