基于不确定度的多智能体信用分配方法OA北大核心CSTPCD
近年来,部分可观测条件下多智能体协同受到广泛关注。中心化训练分布式执行作为处理这类任务的通用范式面临信用分配这一核心问题。值分解是该范式中的代表性方法,通过混合网络将联合状态动作值函数分解为多个局部观察动作值函数以实现信用分配,在很多问题中表现很好。然而这些方法维持对混合网络参数的单一点估计,因缺乏不确定度表示而难以有效应对环境中的随机因素导致只能收敛到次优策略。为缓解这一问题,对混合网络进行贝叶斯分析,提出一种基于不确定度的多智能体信用分配方法,通过显式地量化参数的不确定度来指导信用分配。考虑到智能体之间复杂的交互,利用贝叶斯超网络隐式地建模参数任意复杂的后验分布,以避免先验地指定分布类型而陷于局部最优解。在星际争霸微操环境中的多个地图上与代表性算法的性能进行对比与分析,验证了算法的有效性。
杨光开;陈皓;张茗奕;尹奇跃;黄凯奇;
中国科学院自动化研究所智能系统与工程研究中心,北京100190 中国科学院大学人工智能学院,北京100049中国科学院自动化研究所智能系统与工程研究中心,北京100190中国科学院自动化研究所智能系统与工程研究中心,北京100190 中国科学院大学人工智能学院,北京100049 中国科学院脑科学与智能技术卓越创新中心,上海200031
计算机与自动化
多智能体协同深度强化学习信用分配贝叶斯超网络
《中国科学院大学学报(中英文)》 2024 (002)
P.231-240 / 10
国家自然科学基金(61876181);北京市科技创新计划(Z19110000119043);中国科学院先导科技专项(QYZDB-SSWJSC006)和中国科学院青年创新促进会项目资助。
评论