基于PPO算法的自动驾驶人机交互式强化学习方法OA北大核心CSTPCD
针对当前自动驾驶领域中深度强化学习(deep reinforcement learning,DRL)所面临的高计算性能需求和收敛速度慢的问题,将变分自编码器(variational autoencoder,VAE)和近端策略优化算法(proximal policy optimization,PPO)相结合。通过采用VAE的特征编码技术,将Carla模拟器获取的语义图像有效转换为状态输入,以此应对DRL在处理复杂自动驾驶任务时的高计算负担。为了解决…查看全部>>
时高松;赵清海;董鑫;贺家豪;刘佳源
青岛大学机电工程学院,山东青岛266071青岛大学机电工程学院,山东青岛266071青岛大学机电工程学院,山东青岛266071青岛大学机电工程学院,山东青岛266071青岛大学机电工程学院,山东青岛266071
计算机与自动化
自动驾驶深度强化学习特征编码驾驶干预经验回放
《计算机应用研究》 2024 (9)
P.2732-2736,5
国家自然科学基金资助项目(52175236)。
评论