|国家科技期刊平台
首页|期刊导航|计算机科学与探索|潜在空间中的策略搜索强化学习方法

潜在空间中的策略搜索强化学习方法OA北大核心CSTPCD

中文摘要

策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。

赵婷婷;王莹;孙威;陈亚瑞;王嫄;杨巨成;

天津科技大学人工智能学院,天津300457

计算机与自动化

无模型强化学习策略模型状态表示动作表示连续动作空间策略搜索强化学习方法

《计算机科学与探索》 2024 (004)

P.1032-1046 / 15

国家自然科学基金(61976156);天津市企业科技特派员项目(20YDTPJC00560)。

10.3778/j.issn.1673-9418.2211106

评论