基于大语言模型的CIL-LLM类别增量学习框架OA北大核心
在文本分类领域,为了提升类别增量学习模型的分类准确率并避免灾难性遗忘问题,提出了一种基于大语言模型(LLM)的类别增量学习框架(CIL-LLM)。CIL-LLM框架通过抽样和压缩环节选取具有代表性的样本,利用较强语言理解能力的LLM基于上下文学习提炼关键技能,以这些技能作为分类的依据,从而降低了存储成本;采用关键词匹配环节选取最优技能,以此构建提示词,引导下游弱LLM进行分类,提高了分类的准确性;根据基于知识蒸馏的技能融合环节,不仅实现了技能库的有效拓展和更新,还兼顾了新旧类别特性的学习。对比实验结果表明,在THUCNews数据集上的测试中,与现有的L-SCL方法相比,CIL-LLM框架在所有任务上的平均准确率提升了6.3个百分点,性能下降率降低了3.1个百分点。此外,在消融实验中,经由CIL-LLM框架增强的SLEICL模型相比于原有模型,所有任务的平均准确率提高了10.4个百分点,性能下降率降低了3.3个百分点。消融实验进一步验证了提出的样本压缩、关键词匹配和技能融合环节均对模型的准确率和性能下降率产生了优化效果。
王晓宇;李欣;胡勉宁;薛迪
中国人民公安大学信息网络安全学院,北京100038中国人民公安大学信息网络安全学院,北京100038 安全防范技术与风险评估公安部重点实验室,北京100026中国人民公安大学信息网络安全学院,北京100038中国人民公安大学信息网络安全学院,北京100038
计算机与自动化
类别增量学习大语言模型(LLM)主题分类知识蒸馏
《计算机科学与探索》 2025 (2)
P.374-384,11
国家重点研发计划(2022YFC3301101)。
评论