| 注册
首页|期刊导航|自动化学报|一种加速时间差分算法收敛的方法

一种加速时间差分算法收敛的方法

何斌 刘全 张琳琳 时圣苗 陈红名 闫岩

自动化学报2021,Vol.47Issue(7):1679-1688,10.
自动化学报2021,Vol.47Issue(7):1679-1688,10.DOI:10.16383/j.aas.c190140

一种加速时间差分算法收敛的方法

A Method of Accelerating the Convergence of Temporal Difference Learning

何斌 1刘全 1张琳琳 2时圣苗 3陈红名 4闫岩1

作者信息

  • 1. 苏州大学计算机科学与技术学院 苏州215006
  • 2. 苏州大学江苏省计算机信息处理技术重点实验室 苏州215006
  • 3. 吉林大学符号计算与知识工程教育部重点实验室 长春130012
  • 4. 软件新技术与产业化协同创新中心 南京210000
  • 折叠

摘要

关键词

强化学习/时间差分算法/蒙特卡罗算法/加速收敛

引用本文复制引用

何斌,刘全,张琳琳,时圣苗,陈红名,闫岩..一种加速时间差分算法收敛的方法[J].自动化学报,2021,47(7):1679-1688,10.

基金项目

国家自然科学基金项目(61772355,61702055,61502323,61502329),江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004),吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18),苏州市应用基础研究计划工业部分(SYG201422)资助 (61772355,61702055,61502323,61502329)

自动化学报

OA北大核心CSCDCSTPCD

0254-4156

访问量6
|
下载量0
段落导航相关论文