基于深度学习的抽取式摘要研究综述OA北大核心CSTPCD
自动文本摘要(ATS)是自然语言处理的热门研究方向,主要实现方法分为抽取式和生成式两类。抽取式摘要直接采用源文档中的文字内容,相比生成式摘要具有更高的语法正确性和事实正确性,在政策解读、官方文件总结、法律和医药等要求较为严谨的领域具有广泛应用前景。目前基于深度学习的抽取式摘要研究受到广泛关注。主要梳理了近几年基于深度学习的抽取式摘要技术研究进展;针对抽取式摘要的两个关键步骤——文本单元编码和摘要抽取,分别分析了相关研究工作。根据模型框架的不同,将文本单元编码方法分为层级序列编码、基于图神经网络的编码、融合式编码和基于预训练的编码四类进行介绍;根据摘要抽取阶段抽取粒度的不同,将摘要抽取方法分为文本单元级抽取和摘要级抽取两类进行分析。介绍了抽取式摘要任务常用的公共数据集和性能评估指标。预测并分析总结了该领域未来可能的研究方向及相应的发展趋势。
田萱;李嘉梁;孟晓欢;
北京林业大学信息学院,北京100083 国家林业草原林业智能信息处理工程技术研究中心,北京100083北京林业大学信息学院,北京100083
计算机与自动化
自然语言处理神经网络深度学习抽取模型框架预训练编码方法融合式
《计算机科学与探索》 2024 (011)
P.2823-2847 / 25
国家重点研发计划基本项目(2018YFC1603305,2018YFC1603302)。
评论