郑州大学学报(理学版)2022,Vol.54Issue(1):62-68,7.DOI:10.13705/j.issn.1671-6841.2021174
基于动态优先级的奖励优化模型
Constrained Reward Optimization with Dynamic Preferences
摘要
关键词
强化学习/深度学习/受限马尔可夫模型/动态优先级/机器人环境分类
信息技术与安全科学引用本文复制引用
赵沛尧,黄蔚..基于动态优先级的奖励优化模型[J].郑州大学学报(理学版),2022,54(1):62-68,7.基金项目
国家自然科学基金项目(61303108) (61303108)
江苏省高校自然科学研究重大项目(17KJA520004) (17KJA520004)
江苏省高校省级重点实验室(苏州大学)项目(KJS1524) (苏州大学)
苏州市应用基础研究计划工业部分(SYG201422). (SYG201422)