| 注册
首页|期刊导航|天津科技大学学报|基于最优向量基线的参数探索策略梯度算法

基于最优向量基线的参数探索策略梯度算法

赵婷婷 李坤 刘展硕 陈亚瑞 王嫄 杨巨成

天津科技大学学报2023,Vol.38Issue(4):69-75,7.
天津科技大学学报2023,Vol.38Issue(4):69-75,7.DOI:10.13364/j.issn.1672-6510.20220246

基于最优向量基线的参数探索策略梯度算法

Policy Gradients with Parameter-Based Exploration Based on Optimal Vector Baseline

赵婷婷 1李坤 1刘展硕 1陈亚瑞 1王嫄 1杨巨成1

作者信息

  • 1. 天津科技大学人工智能学院,天津300457
  • 折叠

摘要

关键词

深度强化学习/策略梯度/梯度估计/方差

Key words

deep reinforcement learning/policy gradients/gradient estimation/variance

分类

信息技术与安全科学

引用本文复制引用

赵婷婷,李坤,刘展硕,陈亚瑞,王嫄,杨巨成..基于最优向量基线的参数探索策略梯度算法[J].天津科技大学学报,2023,38(4):69-75,7.

基金项目

国家自然科学基金项目(61976156) (61976156)

天津市企业科技特派员项目(20YDTPJC00560) (20YDTPJC00560)

天津科技大学学报

1672-6510

访问量0
|
下载量0
段落导航相关论文