基于改进SAC算法的机械臂运动规划OA
针对深度强化学习算法在高维状态空间和高精度需求下的机械臂运动规划任务中存在探索效率低、收敛速度慢以及不收敛等问题,文中以SAC(Soft Actor-Critic)算法为基础,引入异步优势机制,提出了一种融合异步优势的AA-SAC(Asynchronous Advantage Soft Actor-Critic)算法。该算法使用Q target网络代替了原V网络,有效降低了Q网络的方差,n个独立的进程可并行训练,提升了训练效率。将AA-SAC算法…查看全部>>
唐超;张帆
上海工程技术大学机械与汽车工程学院,上海201620上海工程技术大学机械与汽车工程学院,上海201620
计算机与自动化
深度强化学习异步优势SAC算法经验回放池机械臂运动规划微创手术CoppeliaSim
《电子科技》 2024 (11)
P.47-54,8
上海市科委生物医药领域科技支撑计划(17441901200)。
评论