天津科技大学学报2023,Vol.38Issue(4):69-75,7.DOI:10.13364/j.issn.1672-6510.20220246
基于最优向量基线的参数探索策略梯度算法
Policy Gradients with Parameter-Based Exploration Based on Optimal Vector Baseline
摘要
关键词
深度强化学习/策略梯度/梯度估计/方差Key words
deep reinforcement learning/policy gradients/gradient estimation/variance分类
信息技术与安全科学引用本文复制引用
赵婷婷,李坤,刘展硕,陈亚瑞,王嫄,杨巨成..基于最优向量基线的参数探索策略梯度算法[J].天津科技大学学报,2023,38(4):69-75,7.基金项目
国家自然科学基金项目(61976156) (61976156)
天津市企业科技特派员项目(20YDTPJC00560) (20YDTPJC00560)