一种基于条件生成对抗网络的模型化策略搜索方法OA
A Model-based Policy Search Method Based on Conditional Generative Adversarial Network
模型化强化学习是深度强化学习领域中的一种有效学习模式,能够缓解强化学习在实际应用中样本利用率低的瓶颈问题.然而,受环境复杂性及动态性影响,学习得到准确的状态转移环境模型极具挑战.为此,本文提出一种基于条件生成对抗网络的复杂环境中有效的模型化策略搜索强化学习方法.该方法首先利用条件生成对抗网络对环境中的状态转移函数学习,再利用经典的策略搜索方法进行策略学习.通过实验验证,该方法能够准确地生成状态转移数据,为策略学习提供充足的学习样本,从而得到稳定、高性能的策略.
孔乐;赵婷婷
天津科技大学人工智能学院,天津 300457天津科技大学人工智能学院,天津 300457
信息技术与安全科学
条件生成对抗网络模型化强化学习策略搜索状态转移函数环境模型
《天津科技大学学报》 2021 (1)
68-74,7
国家自然科学基金资助项目(61976156)天津市教委计划科研项目(2017KJ034)