首页|期刊导航|郑州大学学报（工学版）|基于多估计器平均值的深度确定性策略梯度算法

基于多估计器平均值的深度确定性策略梯度算法

李琳李玉泽张钰嘉魏巍

郑州大学学报（工学版）2022，Vol.43Issue(2)：15-21,7.

郑州大学学报（工学版）2022，Vol.43Issue(2)：15-21,7.DOI:10.13705/j.issn.1671-6833.2022.02.013

Deep Deterministic Policy Gradient Algorithm Based on Mean of Multiple Estimators

李琳 ¹李玉泽 ²张钰嘉 ¹魏巍¹

作者信息

强化学习/行动者-评论家/低估计/多估计器/策略梯度

信息技术与安全科学

李琳,李玉泽,张钰嘉,魏巍..基于多估计器平均值的深度确定性策略梯度算法[J].郑州大学学报（工学版）,2022,43(2):15-21,7.

国家自然科学基金资助项目(61772323) （61772323）

山西省自然科学基金资助项目(201801D221165) （201801D221165）

山西省高校科技创新项目(2019L0057) （2019L0057）

OA北大核心CSTPCD

ISSN：1671-6833

访问量5

下载量0

段落导航