首页|期刊导航|工程科学学报|基于学习机制的多智能体强化学习综述

基于学习机制的多智能体强化学习综述OA北大核心CSTPCD

中文摘要

强化学习作为人工智能领域的重要分支,以其在多智能体系统决策中的卓越表现,成为当前主流方法.然而,传统的多智能体强化学习算法在面对维度爆炸、训练样本稀缺和难以迁移等方面仍然存在困难.为了克服这些挑战并提升算法性能,本文从学习机制的角度入手,深入研究学习机制与强化学习的深度融合,以推动多智能体强化学习算法的发展.首先,介绍了多智能体强化学习算法的基本原理、发展历程以及算法所面临的难点.随后,引入了基于学习机制的多智能体强化学习方法这一种新兴方向.这些学习机制,如元学习和迁移学习,被证明可以有效提升多智能体的学习速度,并缓解维度爆炸等问题.按照课程学习、演化博弈、元学习、分层学习、迁移学习等学习机制在多智能体强化学习中的应用进行了综述,通过罗列这些方法的研究成果,论述了各种方法的局限性,并提出了未来改进的方向.总结了这类融合算法在实际应用中取得的提升成果和实际应用,具体列举了基于学习机制的多智能体强化学习算法在交通控制、游戏领域的实际应用案例.同时,对这类融合算法未来在理论、算法和应用方面的发展方向进行了深入分析.这涵盖了对新颖理论的探索、算法性能的进一步优化,以及在更广泛领域中的推广应用.通过这样的综述和分析,为未来多智能体强化学习算法的研究方向和实际应用提供了有益的参考.

作者：王若男;董琦;

作者单位：中国电子科学研究院,北京100041

分类：计算机与自动化

中文关键词：强化学习多智能体博弈学习机制课程学习演化强化学习

刊名：《工程科学学报》 2024 (007)

页码/页数：P.1251-1268 / 18

基金： 网络空间安全态势感知与评估安徽省重点实验室开放课题资助项目(CSSAE-2021-003);国家自然科学基金项目青年科学基金资助项目(62206018)。

DOI：10.13374/j.issn2095-9389.2023.08.08.003

基于学习机制的多智能体强化学习综述OA北大核心CSTPCD

评论