首页|期刊导航|天津科技大学学报|基于最优向量基线的参数探索策略梯度算法

基于最优向量基线的参数探索策略梯度算法

赵婷婷李坤刘展硕陈亚瑞王嫄杨巨成

天津科技大学学报2023，Vol.38Issue(4)：69-75,7.

天津科技大学学报2023，Vol.38Issue(4)：69-75,7.DOI:10.13364/j.issn.1672-6510.20220246

Policy Gradients with Parameter-Based Exploration Based on Optimal Vector Baseline

赵婷婷 ¹李坤 ¹刘展硕 ¹陈亚瑞 ¹王嫄 ¹杨巨成¹

作者信息

深度强化学习/策略梯度/梯度估计/方差

deep reinforcement learning/policy gradients/gradient estimation/variance

信息技术与安全科学

赵婷婷,李坤,刘展硕,陈亚瑞,王嫄,杨巨成..基于最优向量基线的参数探索策略梯度算法[J].天津科技大学学报,2023,38(4):69-75,7.

国家自然科学基金项目(61976156) （61976156）

天津市企业科技特派员项目(20YDTPJC00560) （20YDTPJC00560）

ISSN：1672-6510

访问量0

下载量0

段落导航