基于SAC的多智能体深度强化学习算法OA北大核心CSCD
Deep Reinforcement Learning Algorithm of Multi?agent Based on SAC
由于多智能体所处环境动态变化,并且单个智能体的决策也会影响其他智能体,这使得单智能体深度强化学习算法难以在多智能体环境中保持稳定.为了适应多智能体环境,本文利用集中训练和分散执行框架Cen-tralized Training with Decentralized Execution(CTDE),对单智能体深度强化学习算法Soft Actor-Critic(SAC)进行了改进,引入智能体通信机制,构建Multi-Agent Soft Actor-Critic(MASAC)算法.MASAC中智能体共享观察信息和历史经验,有效减少了环境不稳定性对算法造成的影响.最后,本文在协同以及协同竞争混合的任务中,对MASAC算法性能进行了实验分析,结果表明MASAC相对于SAC在多智能体环境中具有更好的稳定性.
肖硕;黄珍珍;张国鹏;杨树松;江海峰;李天旭
矿山数字化教育部工程研究中心,江苏徐州221000中国矿业大学计算机科学与技术学院,江苏徐州221000中国矿业大学计算机科学与技术学院,江苏徐州221000中国矿业大学计算机科学与技术学院,江苏徐州221000宁波市轨道交通集团有限公司,浙江宁波315000中国矿业大学计算机科学与技术学院,江苏徐州221000
信息技术与安全科学
多智能体环境集中训练分散执行多智能体深度强化学习
《电子学报》 2021 (9)
高速铁路复杂多元应用场景下的类脑智能健康管理体系架构与信息协同技术研究
1675-1681,7
国家自然科学基金(No.62071470,No.U1934219,No.61971421)徐州市科技计划项目(No.KC19011,No.KC20167)
评论