南京理工大学学报2024,Vol.48Issue(3):P.300-309,10.DOI:10.14177/j.cnki.32-1397n.2024.48.03.007
基于乐观探索的双延迟深度确定性策略梯度
摘要
关键词
深度强化学习/双延迟深度确定性策略梯度/探索策略/乐观探索分类
信息技术与安全科学引用本文复制引用
王浩宇,张衡波,程玉虎,王雪松..基于乐观探索的双延迟深度确定性策略梯度[J].南京理工大学学报,2024,48(3):P.300-309,10.基金项目
国家自然科学基金(61976215,62176259) (61976215,62176259)
江苏省自然科学基金(BK20221116) (BK20221116)
江苏省卓越博士后计划(2022ZB530)。 (2022ZB530)