| 注册
首页|期刊导航|控制理论与应用|连续时间部分可观Markov决策过程的策略梯度估计

连续时间部分可观Markov决策过程的策略梯度估计

唐波 李衍杰 殷保群

控制理论与应用2009,Vol.26Issue(7):805-808,4.
控制理论与应用2009,Vol.26Issue(7):805-808,4.

连续时间部分可观Markov决策过程的策略梯度估计

The policy gradient estimation for continuous-time partially observable Markovian decision processes

唐波 1李衍杰 1殷保群1

作者信息

  • 1. 中国科学技术大学,自动化系,安徽,合肥,230027
  • 折叠

摘要

关键词

连续时间部分可观Markov决策过程/策略梯度估计/一致化/误差界

分类

数理科学

引用本文复制引用

唐波,李衍杰,殷保群..连续时间部分可观Markov决策过程的策略梯度估计[J].控制理论与应用,2009,26(7):805-808,4.

基金项目

国家自然科学基金资助项目(60574065) (60574065)

国家"863"计划资助项目(2006AA01Z114) (2006AA01Z114)

中国科学院自动化所和中国科学技术大学智能科学与技术联合实验室种子基金资助项目(JL0606). (JL0606)

控制理论与应用

OA北大核心CSCDCSTPCD

1000-8152

访问量0
|
下载量0
段落导航相关论文