基于大语言模型的《四库全书》自动分类研究OACHSSCDCSSCI
在古籍研究掀起热潮以及古籍活化成为时代要求的背景下,古籍自动分类面临更高的要求。结合当下前沿的大语言模型,以《四库全书》史部和经部的25类语料作为输入语料,探究荀子古籍大语言系列模型在古籍自动分类上的分类效果。通过与其基座模型对比实验表明,荀子古籍大语言系列模型在古籍自动分类任务中具有明显优势,其中Xunzi-Baichuan2-7B大语言模型的优势最为显著,整体分类F1值达到96.90%;调整训练数据规模的实验表明,荀子古籍大语言模型仅需少量的数据就能够达到与基座模型相当的分类效果。因此,本研究提出的基于荀子古籍大语言模型的古籍自动分类模型,能够实现对古籍的高效细粒度分类,并为资源受限情境下的古籍分类开辟了新途径。
左亮;赵志枭;王东波;
南京农业大学数字人文研究中心,南京210095 南京邮电大学社会与人口学院、社会工作学院,南京210023南京农业大学信息管理学院,南京210095
《四库全书》分类模型荀子古籍大语言模型文本自动分类
《信息资源管理学报》 2024 (005)
P.23-35 / 13
国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(21&ZD331)的研究成果之一。
评论