| 注册
首页|期刊导航|自动化学报|基于Transformer的状态−动作−奖赏预测表征学习

基于Transformer的状态−动作−奖赏预测表征学习

刘民颂 朱圆恒 赵冬斌

自动化学报2025,Vol.51Issue(1):P.117-132,16.
自动化学报2025,Vol.51Issue(1):P.117-132,16.DOI:10.16383/j.aas.c240230

基于Transformer的状态−动作−奖赏预测表征学习

刘民颂 1朱圆恒 1赵冬斌1

作者信息

  • 1. 中国科学院自动化研究所多模态人工智能系统全国重点实验室,北京100190 中国科学院大学人工智能学院,北京100049
  • 折叠

摘要

关键词

深度强化学习/表征学习/自监督对比学习/Transformer

分类

信息技术与安全科学

引用本文复制引用

刘民颂,朱圆恒,赵冬斌..基于Transformer的状态−动作−奖赏预测表征学习[J].自动化学报,2025,51(1):P.117-132,16.

基金项目

中国科学院战略性先导研究(XDA27030400) (XDA27030400)

国家自然科学基金(62136008,62293541) (62136008,62293541)

北京市自然科学基金(4232056)资助。 (4232056)

自动化学报

OA北大核心

0254-4156

访问量9
|
下载量0
段落导航相关论文