基于大模型微调的领域低资源语言机器翻译研究OA
低资源语言机器翻译常因高质量标注语料匮乏而无法取得较好的翻译效果。为了提升领域低资源语言机器翻译性能,该文提出了一种结合规则和评分机制的平行句对筛选方法,并采用大语言模型进行LoRA微调,以优化低资源语言与汉语在特定领域的机器翻译。首先利用LASER3嵌入的相似度和规则评分筛选高质量的双语平行句对,同时利用领域词典提取财经、医学、法律领域语料,构建了“汉语-孟加拉语”和“汉语-印地语”的高质量语料库。随后,利用这些语料对Qwen和Llama模型进行微调。研究结果显示,微调后的模型在多个翻译方向上性能提升显著,Llama的翻译效果优于Qwen,BLEU值提升幅度多数超过30%,但Qwen模型在孟加拉语到汉语的翻译性能比Llama更好。此外,该文还比较了大模型微调与传统神经机器翻译模型以及随机抽样数据微调策略的效果。
徐颂喜;方浩男;蒋盛益;王连喜
广东外语外贸大学信息科学与技术学院,广东广州510006广东外语外贸大学信息科学与技术学院,广东广州510006广东外语外贸大学信息科学与技术学院,广东广州510006广东外语外贸大学信息科学与技术学院,广东广州510006
信息技术与安全科学
低资源语言大模型微调机器翻译
《广西民族大学学报(自然科学版)》 2025 (2)
P.92-101,10
国家语委科研项目(YB145-123)。
评论