自动化学报2021,Vol.47Issue(7):1679-1688,10.DOI:10.16383/j.aas.c190140
一种加速时间差分算法收敛的方法
A Method of Accelerating the Convergence of Temporal Difference Learning
摘要
关键词
强化学习/时间差分算法/蒙特卡罗算法/加速收敛引用本文复制引用
何斌,刘全,张琳琳,时圣苗,陈红名,闫岩..一种加速时间差分算法收敛的方法[J].自动化学报,2021,47(7):1679-1688,10.基金项目
国家自然科学基金项目(61772355,61702055,61502323,61502329),江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004),吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18),苏州市应用基础研究计划工业部分(SYG201422)资助 (61772355,61702055,61502323,61502329)