一种有限时段Markov决策过程的强化学习算法OA
An algorithm of reinforcement learning for finite-horizon Markov decision processes
研究有限时段非平稳的Markov决策过程的强化学习算法.通过引入一个人工吸收状态,把有限时段问题变为无限时段问题,从而可利用通常的强化学习方法来求解.在文献[3]提出的算法思想基础上,提出了一种新的有限时段非平稳的Markov决策过程的强化学习算法,并用无完全模型的库存控制问题进行了实验.
李春贵;刘永信
广西工学院计算机系,广西,柳州,545006内蒙古大学自动化系,内蒙古,呼和浩特,010021
计算机与自动化
强化学习Markov决策过程非平稳库存控制
《广西工学院学报》 2003 (1)
1-4,4
评论