效用驱动的Markov强化学习OA北大核心CSCDCSTPCD
Markov reinforcement learning driven by utility
对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题.与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的.智能体的学习将不再与特定的目标状态相联系,而是最大化每步的平均期望收益,即最大化一定步数内的收益总和,因此学习结果是一个平均收益最大的最优循环.证明了多吸收状态下强化学习的收敛性,将栅格图像看作具有多个吸收状态的格子世界,测试了确定性环境下多吸收状态Q学习的有效性.
韩伟
南京财经大学,信息工程学院,南京,210046
计算机与自动化
强化学习智能体Markov决策过程
《计算机工程与应用》 2009 (4)
基于多智能体强化学习的电子市场动态定价研究
42-44,3
国家自然科学基金(the National Natural Science Foundation of China under Grant No.70802025)国家高技术研究发展计划(863)(the National High-Tech Research and Development Plan of China under Grant No.2002AA134020-04)南京财经大学校级课题(No.C0728)江苏省"青蓝工程"项目.
评论