自动化学报2025,Vol.51Issue(1):P.117-132,16.DOI:10.16383/j.aas.c240230
基于Transformer的状态−动作−奖赏预测表征学习
摘要
关键词
深度强化学习/表征学习/自监督对比学习/Transformer分类
信息技术与安全科学引用本文复制引用
刘民颂,朱圆恒,赵冬斌..基于Transformer的状态−动作−奖赏预测表征学习[J].自动化学报,2025,51(1):P.117-132,16.基金项目
中国科学院战略性先导研究(XDA27030400) (XDA27030400)
国家自然科学基金(62136008,62293541) (62136008,62293541)
北京市自然科学基金(4232056)资助。 (4232056)