自动化学报2024,Vol.50Issue(1):P.143-153,11.DOI:10.16383/j.aas.c230019
基于优先采样模型的离线强化学习
摘要
关键词
离线强化学习/优先采样模型/时序差分误差/鞅/批约束深度Q学习分类
信息技术与安全科学引用本文复制引用
顾扬,程玉虎,王雪松..基于优先采样模型的离线强化学习[J].自动化学报,2024,50(1):P.143-153,11.基金项目
国家自然科学基金(62176259,62373364) (62176259,62373364)
江苏省重点研发计划项目(BE2022095)资助。 (BE2022095)