首页|期刊导航|广西工学院学报|一种有限时段Markov决策过程的强化学习算法

一种有限时段Markov决策过程的强化学习算法OA

An algorithm of reinforcement learning for finite-horizon Markov decision processes

中文摘要

研究有限时段非平稳的Markov决策过程的强化学习算法.通过引入一个人工吸收状态,把有限时段问题变为无限时段问题,从而可利用通常的强化学习方法来求解.在文献[3]提出的算法思想基础上,提出了一种新的有限时段非平稳的Markov决策过程的强化学习算法,并用无完全模型的库存控制问题进行了实验.

李春贵;刘永信

广西工学院计算机系,广西,柳州,545006内蒙古大学自动化系,内蒙古,呼和浩特,010021

计算机与自动化

强化学习Markov决策过程非平稳库存控制

《广西工学院学报》 2003 (1)

1-4,4

评论

您当前未登录!去登录点击加载更多...