首页|期刊导航|南京理工大学学报|基于乐观探索的双延迟深度确定性策略梯度

基于乐观探索的双延迟深度确定性策略梯度

王浩宇张衡波程玉虎王雪松

南京理工大学学报2024，Vol.48Issue(3)：P.300-309,10.

南京理工大学学报2024，Vol.48Issue(3)：P.300-309,10.DOI:10.14177/j.cnki.32-1397n.2024.48.03.007

王浩宇 ¹张衡波 ¹程玉虎 ¹王雪松¹

作者信息

深度强化学习/双延迟深度确定性策略梯度/探索策略/乐观探索

信息技术与安全科学

王浩宇,张衡波,程玉虎,王雪松..基于乐观探索的双延迟深度确定性策略梯度[J].南京理工大学学报,2024,48(3):P.300-309,10.

国家自然科学基金(61976215,62176259) （61976215,62176259）

江苏省自然科学基金(BK20221116) （BK20221116）

江苏省卓越博士后计划(2022ZB530)。（2022ZB530）

OA北大核心CSTPCD

ISSN：1005-9830

访问量5

下载量0

段落导航