计算机应用研究2022,Vol.39Issue(2):374-378,5.DOI:10.19734/j.issn.1001-3695.2021.08.0310
基于环境状态分布优化的POMDP值迭代求解算法
Probability-based value iteration on optimal state distribution algorithm for POMDP
摘要
关键词
部分可观测马尔可夫决策过程/可达信念空间/智能体规划分类
信息技术与安全科学引用本文复制引用
朱荣鑫,王譞,刘峰,赵志宏..基于环境状态分布优化的POMDP值迭代求解算法[J].计算机应用研究,2022,39(2):374-378,5.基金项目
国家重点研发计划资助项目(2018YFC1801605) (2018YFC1801605)
国家软件新技术重点实验室面上项目(ZZKT2021B08) (ZZKT2021B08)