基于随机方差减小方法的DDPG算法OA北大核心CSCDCSTPCD
Deep Deterministic Policy Gradient Algorithm Based on Stochastic Variance Reduction Method
针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG).该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机方差减小梯度技术,利用该方法的更新方式,使得估计的梯度方差有一个不断减小的上界,令方差不断缩小,从而在小的随机训练子集的基础上找到…查看全部>>
杨薛钰;陈建平;傅启明;陆悠;吴宏杰
苏州科技大学 电子与信息工程学院,江苏 苏州 215009苏州科技大学 江苏省建筑智慧节能重点实验室,江苏 苏州 215009苏州科技大学 苏州市移动网络技术与应用重点实验室,江苏 苏州 215009珠海米枣智能科技有限公司,广东 珠海 519000苏州科技大学 江苏省建筑智慧节能重点实验室,江苏 苏州 215009
信息技术与安全科学
深度强化学习深度Q学习算法(DQN)深度确定性策略梯度算法(DDPG)随机方差缩减梯度技术
《计算机工程与应用》 2021 (19)
基于深度强化学习的大型公共建筑智慧节能方法研究
104-111,8
国家自然科学基金(61876217,61876121,61772357,61750110519,61772355,61702055,61672371)江苏省重点研发计划项目(BE2017663).
评论