控制理论与应用2009,Vol.26Issue(7):805-808,4.
连续时间部分可观Markov决策过程的策略梯度估计
The policy gradient estimation for continuous-time partially observable Markovian decision processes
摘要
关键词
连续时间部分可观Markov决策过程/策略梯度估计/一致化/误差界分类
数理科学引用本文复制引用
唐波,李衍杰,殷保群..连续时间部分可观Markov决策过程的策略梯度估计[J].控制理论与应用,2009,26(7):805-808,4.基金项目
国家自然科学基金资助项目(60574065) (60574065)
国家"863"计划资助项目(2006AA01Z114) (2006AA01Z114)
中国科学院自动化所和中国科学技术大学智能科学与技术联合实验室种子基金资助项目(JL0606). (JL0606)