深度学习优化器进展综述OA北大核心CSTPCD
优化器是提高深度学习模型性能的关键因素,通过最小化损失函数使得模型的参数和真实参数接近从而提高模型的性能。随着GPT等大语言模型成为自然语言处理领域研究焦点,以梯度下降优化器为核心的传统优化器对大模型的优化效果甚微。因此自适应矩估计类优化器应运而生,其在提高模型泛化能力等方面显著优于传统优化器。以梯度下降、自适应梯度和自适应矩估计三类优化器为主线,分析其原理及优劣。将优化器应用到Transformer架构中,选取法-英翻译任务作为评估基准,通过实验深入探讨优化器在特定任务上的效果差异。实验结果表明,自适应矩估计类优化器在机器翻译任务上有效提高模型的性能。同时,展望优化器的发展方向并给出在具体任务上的应用场景。
常禧龙;梁琨;李文涛;
天津科技大学人工智能学院,天津300457
计算机与自动化
优化器机器翻译Transformer深度学习学习率预热算法
《计算机工程与应用》 2024 (007)
P.1-12 / 12
国家自然科学基金(62377036,61807024);天津市教委科研计划项目(2019KJ235);天津市企业科技特派员项目(22YDTPJC00940)。
评论