郑州大学学报(工学版)2022,Vol.43Issue(2):15-21,7.DOI:10.13705/j.issn.1671-6833.2022.02.013
基于多估计器平均值的深度确定性策略梯度算法
Deep Deterministic Policy Gradient Algorithm Based on Mean of Multiple Estimators
摘要
关键词
强化学习/行动者-评论家/低估计/多估计器/策略梯度分类
信息技术与安全科学引用本文复制引用
李琳,李玉泽,张钰嘉,魏巍..基于多估计器平均值的深度确定性策略梯度算法[J].郑州大学学报(工学版),2022,43(2):15-21,7.基金项目
国家自然科学基金资助项目(61772323) (61772323)
山西省自然科学基金资助项目(201801D221165) (201801D221165)
山西省高校科技创新项目(2019L0057) (2019L0057)