| 注册
首页|期刊导航|南京理工大学学报|基于乐观探索的双延迟深度确定性策略梯度

基于乐观探索的双延迟深度确定性策略梯度

王浩宇 张衡波 程玉虎 王雪松

南京理工大学学报2024,Vol.48Issue(3):P.300-309,10.
南京理工大学学报2024,Vol.48Issue(3):P.300-309,10.DOI:10.14177/j.cnki.32-1397n.2024.48.03.007

基于乐观探索的双延迟深度确定性策略梯度

王浩宇 1张衡波 1程玉虎 1王雪松1

作者信息

  • 1. 中国矿业大学信息与控制工程学院,江苏徐州221116
  • 折叠

摘要

关键词

深度强化学习/双延迟深度确定性策略梯度/探索策略/乐观探索

分类

信息技术与安全科学

引用本文复制引用

王浩宇,张衡波,程玉虎,王雪松..基于乐观探索的双延迟深度确定性策略梯度[J].南京理工大学学报,2024,48(3):P.300-309,10.

基金项目

国家自然科学基金(61976215,62176259) (61976215,62176259)

江苏省自然科学基金(BK20221116) (BK20221116)

江苏省卓越博士后计划(2022ZB530)。 (2022ZB530)

南京理工大学学报

OA北大核心CSTPCD

1005-9830

访问量5
|
下载量0
段落导航相关论文