潜在空间中的策略搜索强化学习方法OA北大核心CSTPCD
策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强…查看全部>>
赵婷婷;王莹;孙威;陈亚瑞;王嫄;杨巨成
天津科技大学人工智能学院,天津300457天津科技大学人工智能学院,天津300457天津科技大学人工智能学院,天津300457天津科技大学人工智能学院,天津300457天津科技大学人工智能学院,天津300457天津科技大学人工智能学院,天津300457
计算机与自动化
无模型强化学习策略模型状态表示动作表示连续动作空间策略搜索强化学习方法
《计算机科学与探索》 2024 (4)
P.1032-1046,15
国家自然科学基金(61976156)天津市企业科技特派员项目(20YDTPJC00560)。
评论