非平衡数据集下基于XGBoost模型的财务舞弊识别研究.pdf

上传人：爱文献爱资料

文档编号：21763543

上传时间：2024-04-23

格式：PDF

页数：5

大小：2.01MB

《非平衡数据集下基于XGBoost模型的财务舞弊识别研究.pdf》由会员分享，可在线阅读，更多相关《非平衡数据集下基于XGBoost模型的财务舞弊识别研究.pdf（5页珍藏版）》请在文库网上搜索。

1、Computer Era No.12 20230 引言财务报表是会计信息使用者了解企业实情，做出决策的重要依据。近年来，财务报表舞弊事件屡禁不止，实施舞弊的手法也不断进化，对会计信息使用者造成了深重的伤害。由于会计师事务所自身的缺陷，财务舞弊难以被及时发现1。因此，在提升审计人员自身技术水平和职业道德的同时，也应该利用大数据分析技术为审计赋能，提高快速发现财务报表舞弊的能力。1 研究现状财务舞弊的计算机识别模型构建是近年来国内外审计领域和计算机领域交叉研究的一个热点问题。张曾莲、高雅(2017)选取 2005-2013 年证监会公布的财务舞弊上市公司61家及对比公司61家，以逻辑回归的向后逐步

2、法构建财务舞弊识别模型，模型识别率达到 77.9%2；王珮伊(2022)选取 2000-2020年批发业舞弊上市公司为样本，并按1:1的比例选择配对样本，研究不同降维方法与机器学习的组合，能够实现对批发零售业上市公司财务舞弊的高效识别3；梁功枭(2021)选取 2016-2019 年上市公司数据，利用随机森林算法构建模型对上市公司财务造假情况进行有效识别预警4。Mengshuang Du(2021)采用规范分析与实证研究相结合的研究方法，以CRIME理论为基础，建立财务舞弊识别模型5；Meng C(2020)以某互联网金融机构的真实在线交易数据为基础，分别研究了DOI:10.16644/33-

3、1094/tp.2023.12.013非平衡数据集下基于XGBoost模型的财务舞弊识别研究*王琦，熊莎丽娜，詹柔，张露，杨鑫，张健(西南林业大学数理学院，云南昆明 650224)摘要：针对现实中舞弊样本与非舞弊样本存在的数量不平衡情况，通过25个财务指标与2个非财务指标，运用过采样、欠采样技术及XGBoost模型进行财务报表舞弊识别研究。结果表明，SMOTE过采样方法与XGBoost模型的结合在非平衡数据集下具有较好的整体识别效果，对上市公司财务报表舞弊的智能识别有一定参考意义。关键词：非平衡数据集；财务报表舞弊识别；SMOTE；XGBoost中图分类号：TP311.1;F275.5文献标

4、识码：A文章编号：1006-8228(2023)12-59-05Research on financial fraud identification based on XGBoost model in unbalanced datasetsWang Qi,Xiong Shalina,Zhan Rou,Zhang Lu,Yang Xin,Zhang Jian（School of Mathematics and Science,Southwest Forestry University,Kunming,Yunnan 650224,China）Abstract：In view of the unba

5、lance in the number of fraud samples and non-fraud samples in reality,a study on financialstatementfraudidentificationisconductedbyapplyingover-sampling,under-samplingtechniquesandXGBoostmodelto25financial indicators and 2 non-financial indicators.The results show that the combination of SMOTE over-

6、sampling method andXGBoost model has a good overall identification effect in the unbalanced dataset,which has certain reference significance for theintelligent identification of financial statement fraud of listed companies.Key words：unbalanced dataset;identification of financial statement fraud;SMO

7、TE;XGBoost收稿日期：2023-08-18*基金项目：云南省教育厅科学研究基金项目“基于非线性逻辑回归的M-Score模型优化研究”（2022J0523）；云南省高等学校大学生创新创业训练计划项目“基于数据挖掘的企业财务报表舞弊识别研究”作者简介：王琦（2000-），女，云南大理人，本科，主要研究方向：财务数据分析。通讯作者：张健（1975-），男，云南红河人，硕士，副教授，主要研究方向：数据分析与数据挖掘。59计算机时代 2023年第12期XGBoost算法在原始数据集、欠采样和 SMOTE 数据集上的性能6；濮双羽等(2021)选取 68家舞弊企业与68家非舞弊企业构成1：1配对

8、样本，建立Logistic回归模型，整体识别率为86.87%7；吴贞如（2022）以1：2配比选择283个舞弊样本和566个非舞弊样本，使用四种机器学习算法进行舞弊识别研究，结果表明XGBoost效果最好，准确度为86.95%，召回率为83.61%8。通过梳理文献，大部分学者在研究财务舞弊识别的问题中，舞弊与非舞弊样本通常采用1:1或者1:2人工配对，这样做会使得舞弊识别率虚高。本文的特点在于：在非舞弊样本与舞弊样本极不平衡数据集下，分别使用过采样和欠采样技术构建基于 XGBoost算法的舞弊识别模型，避免了人工配对下舞弊识别率虚高的问题，得到的识别结果更加符合实际，为大数据环境下上市公司财务

9、报表舞弊智能识别研究提供参考。2 数据来源本文以国泰安（CSMAR）数据库中我国A股上市公司2010-2020年的财务年报数据为样本，舞弊企业数据来自于违规处理数据库中的“违规信息总表”，排除金融保险类企业，选择出因“虚构利润”、“虚列资产”、“虚假记载(误导性陈述)”和“披露不实”而被处罚的舞弊企业，共筛选出259家企业的490条舞弊记录。非舞弊样本选取了2010-2020年从未发生过舞弊的非金融业上市公司的财务报表数据，每家公司每一年的年报数据作为一个样本，得到24893个为非舞弊样本。其中有大量样本存在一个或多个指标缺失的情况，删除带有缺失值的表报数据，最终得到8621个非舞弊样本，35

10、5个舞弊样本，非舞弊样本与舞弊样本之比为24:1，属于极不平衡数据集。3 指标选取通常采用财务指标与非财务指标结合的方式选择舞弊识别指标。结合文献8-9，本文选取了 29指标，其中包括27个财务指标、2个非财务指标。如表1所示。指标类型盈利能力指标偿债能力指标经营能力指标发展能力指标资产状况指标非财务指标指标名称营业毛利率营业净利率净资产收益率总资产净利润率成本费用利润率流动比率速动比率资产负债率有形资产负债率应收账款周转率存货周转率总资产周转率流动资产周转率固定资产周转率应付账款周转率总资产增长率营业总收入增长率营业总成本增长率净利润增长率固定资产增长率应收账款比率固定资产比率流动资产比率无

11、形资产比率存货流动资产比率货币流动资产比率现金资产比率H5指数（股权集中度）审计意见类型指标符号X X1 1X X2 2X X3 3X X4 4X X5 5X X6 6X X7 7X X8 8X X9 9X X1010X X1111X X1212X X1313X X1414X X1515X X1616X X1717X X1818X X1919X X2020X X2121X X2222X X2323X X2424X X2525X X2626X X2727X X2828X X2929指标计算公式（营业收入营业成本）/营业收入净利润/营业收入净利润/平均股东权益净利润/期末总资产利润总额/（营业成本

12、销售费用管理费用财务费用）流动资产/流动负债（流动资产存货）/流动负债负债总额/总资产负债总额/（资产总额无形资产净额商誉净额）营业收入/平均应收账款主营业务成本/平均存货营业收入/平均总资产营业收入/平均流动资产营业收入/平均固定资产主营业务成本/平均应付账款本年总资产增长额/年初资产总额（营业总收入本年本期金额营业总收入上年同期金额）/营业总收入上年同期金额（营业总成本本年本期金额营业总成本上年同期金额）/营业总成本上年同期金额（净利润本年本期金额净利润上年同期金额）/净利润上年同期金额（固定资产净额本期期末值上年同期期末值）/上年同期期末值应收账款/总资产固定资产净额/总资产流动资产总计

13、/总资产无形资产净额/总资产存货/流动资产总额货币资金/流动资产总额期末现金及现金等价物余额/资产总额前5大股东持股比例的平方和无保留意见取1；无保留意见带解释性说明取2；保留意见取3；拒绝或无法表示意见取4；否定意见取5；未经审计取6；保留带解释性说明取7表1舞弊识别指标60Computer Era No.12 20234 算法原理4.1 XGBoost算法以往研究表明，基于XGBoost算法构建的财务报表舞弊识别模型在所有性能指标上都优于逻辑回归、支持向量机和随机森林算法8，因此本文采用XGBoost作为主要算法。XGBoost是由华盛顿大学的陈天奇博士在2015年对梯度提升算法进行改进而

14、来，其求解损失函数的极值时使用了牛顿法，并将损失函数泰勒展开到二阶，另外在损失函数中加入了正则项。训练时目标函数由梯度提升算法损失和正则项组成，其中梯度提升算法损失衡量模型相对于训练数据的预测效果，正则项则是控制模型的复杂程度，降低过拟合的风险，这样做使得预测模型更符合机器学习中的偏见方差权衡的原则9-10。4.2 SMOTE算法由于舞弊样本只占全部数据集中的极少数，这样的问题称为类失衡。类失衡问题往往会导致模型的训练结果出现较大的偏差。解决类失衡问题主要有过采样和欠采样方法。SMOTE 是一种过采样技术，它的思想是少数类样本中附近的样本依旧是少数类样本，基于此SMOTE的做法是：确定距离某个

15、少数类样本最近的K个近邻样本，并在K个近邻样本中选取N个样本（N K），然后在该样本与其近邻样本的连线上随机选取一点来生成少数类样本。SMOTE算法公式9：Xnew=X+rand(0,1)(X-X)如图1中五角星为少数类、圆圈为多数类，方块则为生成的“少数类样本”，即式中的Xnew。图1SMOTE算法原理图应用SMOTE算法可以“合成少数类”，将不平衡样本转化为平衡样本。5 实验结果与分析5.1 模型评价指标上市公司财务舞弊识别是一个二分类问题，混淆矩阵可直观的看出模型预测正确和预测错误的识别结果，如表2所示。表2混淆矩阵真实值真实值0（非舞弊）1（舞弊）预测值预测值0（非舞弊）TNFN1（舞

16、弊）FPTP根据混淆矩阵，可以定义如下评估指标：准确率表示预测正确的样本数占全部样本数的比率，计算公式：Accuracy=TP+TNTP+FP+TN+FN 精确率预测正确的正例样本数占所有预测为正例样本数的比例，计算公式：Precision=TPTP+FP 召回率（命中率）表示预测正确的正例数占全部正例的比例，计算公式：Recall=TPTP+FN F1系数精确率和召回率的调和平均，计算公式：F1=2PrecisionRecallPrecision+Recall在舞弊识别问题中，重点在于尽可能识别出舞弊企业，因此常以准确率和召回率作为最主要的指标。5.2 实验结果分析5.2.1 直接使用原始数

17、据本文将全部8976个样本数据随机划分为训练集和测试集，其中80%的数据作为训练集，20%的数据作为测试集，正负例的分布如表3所示。表3正负例分布表训练集测试集负例（非舞弊样本）68931728正例（舞弊样本）28768样本总数71801796对原始数据划分为训练集和测试集后，采用训练集对XGBoost模型进行训练，然后用训练后的模型对测试集进行预测，模型参数取默认值。根据预测结果，得出混淆矩阵如表4所示。由混淆矩阵可知，测试集中的1728个非舞弊样本61计算机时代 2023年第12期有1726个预测正确，只有2个误判为舞弊样本；68个舞弊样本中有61个被误判为非舞弊样本，只有7个预测正确。

18、模型整体准确率为96.5%，但召回率（舞弊样本命中率）只有10.3%。原因在于原始数据中96%的样本为非舞弊样本，模型为了提高整体准确率，会尽可能拟合优势类，导致将大量的样本都判断为非舞弊样本。表4XGBoost模型混淆矩阵真实值真实值0（非舞弊）1（舞弊）预测值预测值0（非舞弊）1726（TN）61(FN)1（舞弊）2(FP)7(TP)5.2.2 SMOTE-XGBoost算法对模型进行训练前，先使用SMOTE过采样算法合成舞弊样本，得到平衡数据集。使用SMOTE算法后正负例分布如表5所示。表5SMOTE过采样训练集正负例分布表SMOTE训练集负例（非舞弊样本）6893正例（舞弊样本）689

19、3样本总数13786使用XGBoost算法进行训练和预测，得混淆矩阵如下：表6SMOTE-XGBoost算法的混淆矩阵真实值真实值0（非舞弊）1（舞弊）预测值预测值0（非舞弊）1683（TN）38(FN)1（舞弊）45(FP)30(TP)由表 6可以看出，测试集中 1728个非舞弊企业，有 1683 个预测正确；68 个舞弊企业，有 38 个预测正确。预测整体准确率为95.4%，召回率为44.1%，说明加入SMOTE算法后，模型的召回率有较大提升，同时准确率没有明显下降。5.2.3 欠采样-XGBoost算法欠采样是从多数类样本中，随机抽取和少数类样本一样多的样本，构成平衡样本。欠采样后的训练

20、集正负例分布如表7所示。表7欠采样训练集正负例分布表欠采样训练集负例（非舞弊样本）287正例（舞弊样本）287样本总数574用欠采样后的数据训练模型，结果如表8的所示，非舞弊企业有1309个预测正确，419个被误判为舞弊企业；舞弊企业有 47 个预测正确，21 个被误判为非舞弊企业。表8欠采样-XGBoost模型的混淆矩阵真实值真实值0（非舞弊）1（舞弊）预测值预测值0（非舞弊）1309（TN）21(FN)1（舞弊）419(FP)47(TP)欠采样方式下，模型的准确率只有75.5%，这主要是因为大量非舞弊样本信息没有被利用所致。由于采用的都是真实样本而没有“合成样本”，此时舞弊样本的召回率是最

21、高的，达到69.1%。5.3 结果对比分析根据表9可知，在非平衡数据集下，采用SMOTE过拟合方法后，召回率提升到44.1%，同时准确率仍然保持95.4%的高水平，说明此方法在保持高准确率的条件下，极大提升了舞弊企业的命中率；而采用欠采样方式，可以命中近70%的舞弊企业，对舞弊企业的识别最为有利，但是整体的识别率只有75.5%，存在大量的误判样本。表9模型评估指标结果对比模型XGBoostSMOTE+XGBoost欠采样+XGBoost准确率0.9650.9540.755精确率0.7780.4000.101召回率0.1030.4410.691F1-score0.1820.4200.176AUC

22、0.8640.8180.809图2三种模型下ROC曲线图(a)Xgboost(b)SOMTE+Xgboost(c)欠采样+XGBoost62Computer Era No.12 2023图2是三种模型下的ROC曲线图。ROC曲线越接近左上角，曲线下面积（AUC）越接近1，表明模型的分类效果越好。在商业实战中，AUC值能达到0.75以上就已经可以接受11，因此，以上三种方法的结果都是可以接受的。6 结论现实的财务报表舞弊识别问题中，由于舞弊样本的稀有性，面对的是极不平衡数据集下少数类样本识别问题，已有文献基本未能解决此问题12。本文在极不平衡平衡数据集下，基于过采样及欠采样方法及XGBoost模

23、型进行财务舞弊识别研究。研究结果表明，引入SMOTE过采样算法能够提升非平衡数据集下的舞弊识别效果，模型的整体准确率达到95.4%，但模型的召回率仅为44.1%，对舞弊样本的识别效果不够理想。由于财务舞弊的稀有性、多变性、隐蔽性与复杂性，在实际中的非平衡数据集情况下，如何利用机器学习算法快速有效地识别出舞弊样本，尚需要进一步研究。参考文献(References):1 黄世忠,叶钦华,徐珊,等.20102019年中国上市公司财务舞弊分析J.财会月刊,2020,No.882(14):153-160.2 张曾莲,高雅.财务舞弊识别模型构建及实证检验J.统计与决策,2017,No.477(9):172

24、-175.3 王珮伊.基于机器学习的批发零售业上市公司财务舞弊识别D.重庆:西南大学,2022(2).4 梁功枭.企业财务造假识别预警研究D.成都:四川大学,2021(8).5DuMengshuang.Corporategovernance:five-factortheory-based financial fraud identificationZ.Journal ofChinese Governance,2021.6 Cuizhu Meng,Li Zhou,Bisong Liu.A Case Study in CreditFraudDetectionWithSMOTEandXGBoostZ

25、.Proceedings of 2020 4th International Conference onElectrical,MechanicalandComputerEngineering(ICEMCE 2020)(VOL.4),2020.7 濮双羽,赵洪进.上市公司财务报表舞弊识别的实证研究基于Logistic回归模型J.农场经济管理,2021,No.299(2):47-50.8 吴贞如.基于XGBoost算法的上市公司财务报表舞弊识别研究J.计算机时代,2022,No.362(8):29-33.9 曾曙莲,王涛,段亚穷.基于XGBoost模型的上市公司财务风险预警应用J.商业会计,202

26、3,No.746(2):62-66.10 Tianqi Chen,Carlos Guestrin.XGBoost:A Scalable TreeBoosting System.Z.CoRR,2016.11 王宇韬,钱妍竹.Python大数据分析与机器学习商业案例实战M.北京:机械工业出版社,2020:223.12 刘云菁,伍彬,张敏.上市公司财务舞弊识别模型设计及其应用研究基于新兴机器学习算法J.数量经济技术经济研究,2022,39(7):152-175.消融实验证明了循环结构和融合注意力模块分别对于超分辨率性能的提升是有贡献的，将循环结构和融合注意力模块加在一起可以达到更好的效果。3 结论本

27、文是应用在医学图像上的循环生成对抗网络模型。我们提出先用通道注意力提取特征，再使用空间注意力加大核注意力融合的模块去进一步细化的处理特征，使用循环结构去保证生成图片与原始图片的一致性，针对不同医学图像的特点来改进，从而在超分辨率任务中达到更好的效果。我们在三个不同的数据集上评估，结果表明我们的方法在客观数据和视觉感官效果上取得了优异的性能，而在运行速度和训练稳定性方面未来还可以进行深入研究。参考文献(References):1 Hayit,G.,Super-Resolution in Medical Imaging.TheComputer Journal,2009(1):43-63.2 Bre

28、nner,D.,Estimated risks of radiation-induced fatalcancer from pediatric CT,2001:289-296.3 You,C.,et al.CT Super-resolution GAN Constrained bythe Identical,Residual,and Cycle Learning Ensemble(GAN-CIRCLE),2019.6(14):188-203.4 Liu,H.,et al.Perception Consistency Ultrasound ImageSuper-resolution via Se

29、lf-supervised CycleGAN,2021:833-1844.5 Guo,M.-H.,et al.Visual Attention Network,2022:286-295.6 Ledig,C.,et al.Photo-Realistic Single Image Super-ResolutionUsingaGenerativeAdversarialNetwork,2017:105-114.7 Niu,B.,et al.Single Image Super-Resolution via a HolisticAttention Network,2020:191-207.(上接第58页)CECE63