首页|期刊导航|中国电机工程学报|基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法

基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法OA北大核心

中文摘要

为保证新型电力系统的安全高效运行,针对模型驱动调度方法存在的调度优化模型求解困难、实时决策求解速度慢等问题,该文提出一种基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法。通过构建考虑调节资源运行约束和系统安全约束的实时优化调度模型和引入Vickey-Clark-Groves拍卖机制,设计带约束马尔科夫合作博弈模型,将集中调度模型转换为多智能体间的分布式优化问题进行求解。然后,提出多智能体Actor-double-critic算法,分别采用Self-critic和Cons-critic网络评估智能体的动作-价值和动作-成本,降低训练难度、避免即时奖励和安全约束成本稀疏性的影响,提高多智能体训练收敛速度,保证实时调度决策满足系统安全运行约束。最后,通过仿真算例验证所提方法可大幅缩短实时调度决策时间,实现保证系统运行安全可靠性和经济性的源-网-荷-储实时调度。

徐业琰;姚良忠;廖思阳;程帆;徐箭;蒲天骄;王新迎

武汉大学电气与自动化学院,湖北省武汉市430072武汉大学电气与自动化学院,湖北省武汉市430072武汉大学电气与自动化学院,湖北省武汉市430072武汉大学电气与自动化学院,湖北省武汉市430072武汉大学电气与自动化学院,湖北省武汉市430072中国电力科学研究院有限公司,北京市海淀区100192中国电力科学研究院有限公司,北京市海淀区100192

动力与电气工程

源-网-荷-储实时调度带约束马尔科夫合作博弈多智能体深度强化学习

《中国电机工程学报》 2025 (2)

P.513-526,I0010,15

国家自然科学基金项目(U2166206)。

10.13334/j.0258-8013.pcsee.231054

评论