基于可解释机器学习和文本信息的财务舞弊识别研究OA北大核心CHSSCD
近年来,全球经济一体化与金融市场发展导致上市公司财务舞弊频发。随着上市公司财务数据积累和财务比率多样性增加,大数据与机器学习方法在识别舞弊中的应用成为研究热点。然而,机器学习模型受限于其“黑盒”特性,如何在提高模型精度的同时,增加其透明度和可解释性,已成为学界和业界共同面临的挑战。本文引入一种基于XGBoost框架的可解释机器学习模型,使用加权交叉熵损失函数处理非均衡样本,通过将加权模型简化为单棵决策树,以清晰的树状结构为业界决策者提供明确的逻辑解释。同时,创新性结合上市公司年报中的MD&A文本信息,实证检验文本变量在提升财务舞弊识别性能上的有效性。研究结果表明:加入文本变量后,模型识别准确率达到89.32%,较仅考虑财务与非财务指标时提升了15.73%;利用加权交叉熵为少数类样本赋予更高权重后,召回率提高至86.51%。本文引入的可解释机器学习方法以其简单、透明及高准确性的特点,为财务舞弊识别提供了一种可解释的代价敏感解决方案,为业界决策者提供了指导。
张志恒;成妍;
重庆理工大学会计学院,重庆400054
经济学
财务舞弊可解释性机器学习文本分析
《财会月刊》 2024 (019)
P.20-28 / 9
评论