基于优先采样模型的离线强化学习OA北大核心CSTPCD

中文摘要

离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于鞅的采样模型.基于时序差分误差的采样模型可以使智能体更多地学习值估计不准确的经验数据,通过估计更准确的值函数来应对可能出现的分布外状态.基于鞅的采样模型可以使智能体更多地学习对策略优化有利的正样本,减少负样本对值函数迭代的影响.进一步,将所提离线优先采样模型分别与批约束深度Q学习(Batch-constrained deep Q-learning,BCQ)相结合,提出基于时序差分误差的优先BCQ和基于鞅的优先BCQ.D4RL和Torcs数据集上的实验结果表明:所提离线优先采样模型可以有针对性地选择有利于值函数估计或策略优化的经验数据,获得更高的回报.

作者：顾扬;程玉虎;王雪松;

作者单位：中国矿业大学信息与控制工程学院,徐州221116

分类：计算机与自动化

中文关键词：离线强化学习优先采样模型时序差分误差鞅批约束深度Q学习

刊名：《自动化学报》 2024 (001)

页码/页数：P.143-153 / 11

基金： 国家自然科学基金(62176259,62373364);江苏省重点研发计划项目(BE2022095)资助。

DOI：10.16383/j.aas.c230019

基于优先采样模型的离线强化学习OA北大核心CSTPCD

评论