|国家科技期刊平台
首页|期刊导航|计算机应用研究|基于PPO算法的自动驾驶人机交互式强化学习方法

基于PPO算法的自动驾驶人机交互式强化学习方法OA北大核心CSTPCD

中文摘要

针对当前自动驾驶领域中深度强化学习(deep reinforcement learning,DRL)所面临的高计算性能需求和收敛速度慢的问题,将变分自编码器(variational autoencoder,VAE)和近端策略优化算法(proximal policy optimization,PPO)相结合。通过采用VAE的特征编码技术,将Carla模拟器获取的语义图像有效转换为状态输入,以此应对DRL在处理复杂自动驾驶任务时的高计算负担。为了解决DRL训练中出现的局部最优和收敛速度慢的问题,引入了驾驶干预机制和基于驾驶员引导的经验回放机制,在训练初期和模型陷入局部最优时进行驾驶干预,以提升模型的学习效率和泛化能力。通过在交通路口左转场景进行的实验验证,结果表明,在驾驶干预机制的帮助下,训练初期模型的性能提升加快,且模型陷入局部最优时通过驾驶干预,模型的性能进一步提升,且在复杂场景下提升更为明显。

时高松;赵清海;董鑫;贺家豪;刘佳源;

青岛大学机电工程学院,山东青岛266071

计算机与自动化

自动驾驶深度强化学习特征编码驾驶干预经验回放

《计算机应用研究》 2024 (009)

P.2732-2736 / 5

国家自然科学基金资助项目(52175236)。

10.19734/j.issn.1001-3695.2024.01.0018

评论