多智能体双注意力自适应熵深度强化学习OA北大核心CSTPCD

中文摘要

在执行–评价算法和最大熵强化学习算法中分别存在价值函数过高估计和温度参数脆弱性的问题,从而导致策略网络陷入局部最优.针对此问题,本文提出了一种基于双集中注意力机制与自适应温度参数的多智能体强化学习算法.首先,要构建出两个初始参数不同的具有注意力机制的评价网络,通过这两个评价网络对策略网络做出更加准确的评价,从而避免出现过高估计问题而导致策略网络陷入局部最优.其次,本文提出了自适应温度参数的最大熵强化学习算法,计算出每个智能体的策略熵和基线熵,从而…查看全部>>

作者：吴培良;袁旭东;毛秉毅;陈雯柏;高国伟

作者单位：燕山大学信息科学与工程学院,河北秦皇岛066004 河北省计算机虚拟技术与系统集成重点实验室,河北秦皇岛066004燕山大学信息科学与工程学院,河北秦皇岛066004 河北省计算机虚拟技术与系统集成重点实验室,河北秦皇岛066004燕山大学信息科学与工程学院,河北秦皇岛066004 河北省计算机虚拟技术与系统集成重点实验室,河北秦皇岛066004北京信息科技大学自动化学院,北京100192北京信息科技大学自动化学院,北京100192

分类：计算机与自动化

中文关键词：多智能体系统强化学习注意力机制自适应熵执行–评价

刊名：《控制理论与应用》 2024 (10)

页码/页数：P.1930-1936,7

基金：国家重点研发计划项目(2018YFB1308300)国家自然科学基金项目(62276028,U20A20167)北京市自然科学基金项目(4202026)河北省自然科学基金项目(F202103079)河北省创新能力提升计划项目(22567626H)资助.

DOI：10.7641/CTA.2023.21023

您当前未登录！

去登录

点击加载更多...

多智能体双注意力自适应熵深度强化学习OA北大核心CSTPCD

评论