融合表字段的NL2SQL多任务学习方法OA北大核心CSTPCD
现有的自然语言转SQL(NL2SQL)方法没有充分利用数据表的字段信息,而这对于问题的语义理解和SQL语句的逻辑生成有着重要作用。为了提高SQL生成的整体准确性,提出一种融合数据表字段的NL2SQL方法(FC-SQL)。首先,利用BERT预训练模型对问题和数据库表字段进行合并编码表示;其次,采用多任务学习的方式,结合并联和级联的方式构建多任务网络,以预测不同子任务;最后,针对条件值提取子任务,通过融合字段信息计算问题中词与表字段的相似度,并以相似度值作为权重来计算每个词语作为条件值的概率,从而提高条件值预测的准确率。在TableQA数据集上的逻辑形式准确率与SQL执行准确率分别达到88.23%和91.65%。设计消融实验验证表字段信息对于模型的影响,实验结果表明融入表字段后,条件值抽取子任务效果有所提升,进而改善了NL2SQL任务的整体准确率,相较于对比模型有更好的SQL生成效果。
刘洋;廖薇;徐震;
上海工程技术大学电子电气工程学院,上海201620上海工程技术大学机械与汽车工程学院,上海201620
计算机与自动化
多任务学习自然语言转SQL自然语言处理表字段
《计算机应用研究》 2024 (009)
P.2800-2804 / 5
国家自然科学基金资助项目(62001282)。
评论