基于改进DQN的动态避障路径规划OA
针对传统深度Q学习网络(deep Q-learning network,DQN)在具有动态障碍物的路径规划下,移动机器人在探索时频繁碰撞难以移动至目标点的问题,通过在探索策略和经验回放机制上进行改进,提出一种改进的DQN算法。在探索策略上,利用快速搜索随机树(rapidly-exploring random tree,RRT)算法自动生成静态先验知识来指导动作选取,替代ε-贪婪策略的随机动作,提高智能体到达目标的成功率;在经验利用上,使用K-means算法设计一种聚类经验回放机制,根据动态障碍物的位置信息进行聚类分簇,着重采样与当前智能体状态相似的经验进行回放,使智能体更有效地避免碰撞动态障碍物。二维栅格化环境下的仿真实验表明,在动态环境下,该算法可以避开静态和动态障碍物,成功移动至目标点,验证了该算法在应对动态避障路径规划的可行性。
郑晨炜;侯凌燕;王超;赵青娟;邹智元;
北京信息科技大学计算机开放系统实验室,北京100101
计算机与自动化
动态环境路径规划深度Q学习网络避障经验回放
《北京信息科技大学学报(自然科学版)》 2024 (005)
P.14-22 / 9
国家重点研发计划项目(2022YFF0604502)。
评论