多智能体双注意力自适应熵深度强化学习OA北大核心CSTPCD
在执行–评价算法和最大熵强化学习算法中分别存在价值函数过高估计和温度参数脆弱性的问题,从而导致策略网络陷入局部最优.针对此问题,本文提出了一种基于双集中注意力机制与自适应温度参数的多智能体强化学习算法.首先,要构建出两个初始参数不同的具有注意力机制的评价网络,通过这两个评价网络对策略网络做出更加准确的评价,从而避免出现过高估计问题而导致策略网络陷入局部最优.其次,本文提出了自适应温度参数的最大熵强化学习算法,计算出每个智能体的策略熵和基线熵,从而动态调整温度参数以实现自适应调整智能体的探索.最后,在受限的合作导航环境和受限的宝藏收集环境中验证了本文算法的有效性,本文算法的平均总成本与平均总惩罚优于其他算法.
吴培良;袁旭东;毛秉毅;陈雯柏;高国伟;
燕山大学信息科学与工程学院,河北秦皇岛066004 河北省计算机虚拟技术与系统集成重点实验室,河北秦皇岛066004北京信息科技大学自动化学院,北京100192
计算机与自动化
多智能体系统强化学习注意力机制自适应熵执行–评价
《控制理论与应用》 2024 (010)
P.1930-1936 / 7
国家重点研发计划项目(2018YFB1308300);国家自然科学基金项目(62276028,U20A20167);北京市自然科学基金项目(4202026);河北省自然科学基金项目(F202103079);河北省创新能力提升计划项目(22567626H)资助.
评论