首页|期刊导航|控制理论与应用|连续时间部分可观Markov决策过程的策略梯度估计

连续时间部分可观Markov决策过程的策略梯度估计

唐波李衍杰殷保群

控制理论与应用2009，Vol.26Issue(7)：805-808,4.

The policy gradient estimation for continuous-time partially observable Markovian decision processes

唐波 ¹李衍杰 ¹殷保群¹

作者信息

连续时间部分可观Markov决策过程/策略梯度估计/一致化/误差界

数理科学

唐波,李衍杰,殷保群..连续时间部分可观Markov决策过程的策略梯度估计[J].控制理论与应用,2009,26(7):805-808,4.

国家自然科学基金资助项目(60574065) （60574065）

国家"863"计划资助项目(2006AA01Z114) （2006AA01Z114）

中国科学院自动化所和中国科学技术大学智能科学与技术联合实验室种子基金资助项目(JL0606). （JL0606）

OA北大核心CSCDCSTPCD

ISSN：1000-8152

访问量0

下载量0

段落导航