面向大规模异构计算平台的MiniGo高效训练方法OA北大核心CSTPCD
提出一种适用于大规模异构计算平台训练MiniGo智能体的高效多级并行训练方法,包括节点间任务级并行、中央处理器-数字信号处理器(central processing unit-digital signal processor, CPU-DSP)异构并行、DSP核内并行。实现了高效的输入/输出部署,消除网络通信瓶颈。提出了面向CPU-DSP共享内存结构的异构计算内存管理,减少异构设备间的数据搬运。实现了共享内存编程优化,并利用DSP实现密集卷积计算算子加速优化。结果表明,与16核CPU计算相比,单核DSP算子加速最大加速比达16.44;该方法实现计算节点规模从1 067扩展至4 139,得到达到给定终止条件所需时间从43.02 h降至16.05 h,可扩展效率为69.1%。评估表明,该方法能够实现MiniGo在大规模异构计算平台的高效并行训练。
李荣春;贺周雨;乔鹏;姜晶菲;窦勇;李东升;
国防科技大学并行与分布计算全国重点实验室,湖南长沙410073
计算机与自动化
MiniGo大规模异构计算平台数字信号处理器
《国防科技大学学报》 2024 (005)
P.209-218 / 10
国家自然科学基金资助项目(61902415)。
评论