| 注册
首页|期刊导航|郑州大学学报(工学版)|基于多估计器平均值的深度确定性策略梯度算法

基于多估计器平均值的深度确定性策略梯度算法

李琳 李玉泽 张钰嘉 魏巍

郑州大学学报(工学版)2022,Vol.43Issue(2):15-21,7.
郑州大学学报(工学版)2022,Vol.43Issue(2):15-21,7.DOI:10.13705/j.issn.1671-6833.2022.02.013

基于多估计器平均值的深度确定性策略梯度算法

Deep Deterministic Policy Gradient Algorithm Based on Mean of Multiple Estimators

李琳 1李玉泽 2张钰嘉 1魏巍1

作者信息

  • 1. 山西大学 计算机与信息技术学院,山西 太原 030006
  • 2. 山西大学 计算智能与中文信息处理教育部重点实验室,山西 太原 030006
  • 折叠

摘要

关键词

强化学习/行动者-评论家/低估计/多估计器/策略梯度

分类

信息技术与安全科学

引用本文复制引用

李琳,李玉泽,张钰嘉,魏巍..基于多估计器平均值的深度确定性策略梯度算法[J].郑州大学学报(工学版),2022,43(2):15-21,7.

基金项目

国家自然科学基金资助项目(61772323) (61772323)

山西省自然科学基金资助项目(201801D221165) (201801D221165)

山西省高校科技创新项目(2019L0057) (2019L0057)

郑州大学学报(工学版)

OA北大核心CSTPCD

1671-6833

访问量0
|
下载量0
段落导航相关论文