基于深度强化学习的智能决策方法OA
An Intelligent Decision Making Method Based on Deep Reinforcement Learning
针对传统深度强化学习算法难以快速解决长时序复杂任务的问题,提出了一种引入历史信息和人类知识的深度强化学习方法,对经典近端策略优化(Proximal Policy Optimization,PPO)强化学习算法进行改进,在状态空间引入历史状态以反映环境的时序变化特征,在策略模型中基于人类认知增加无效动作掩膜,禁止智能体进行无效探索,提高探索效率,从而提升模型的训练性能.仿真结果表明,所提方法能够有效解决长时序复杂任务的智能决策问题,相比传统的深度强…查看全部>>
熊蓉玲;段春怡;冉华明;杨萌;冯旸赫
中国西南电子技术研究所,成都 610036中国西南电子技术研究所,成都 610036中国西南电子技术研究所,成都 610036西南交通大学数学学院,成都 611756国防科技大学系统工程学院,长沙 410003
信息技术与安全科学
智能决策深度强化学习近端策略优化动作掩膜
《电讯技术》 2023 (1)
1-6,6
评论