非平衡数据集下基于XGBoost模型的财务舞弊识别研究.pdf
《非平衡数据集下基于XGBoost模型的财务舞弊识别研究.pdf》由会员分享,可在线阅读,更多相关《非平衡数据集下基于XGBoost模型的财务舞弊识别研究.pdf(5页珍藏版)》请在文库网上搜索。
1、Computer Era No.12 20230 引言财务报表是会计信息使用者了解企业实情,做出决策的重要依据。近年来,财务报表舞弊事件屡禁不止,实施舞弊的手法也不断进化,对会计信息使用者造成了深重的伤害。由于会计师事务所自身的缺陷,财务舞弊难以被及时发现1。因此,在提升审计人员自身技术水平和职业道德的同时,也应该利用大数据分析技术为审计赋能,提高快速发现财务报表舞弊的能力。1 研究现状财务舞弊的计算机识别模型构建是近年来国内外审计领域和计算机领域交叉研究的一个热点问题。张曾莲、高雅(2017)选取 2005-2013 年证监会公布的财务舞弊上市公司61家及对比公司61家,以逻辑回归的向后逐步
2、法构建财务舞弊识别模型,模型识别率达到 77.9%2;王珮伊(2022)选取 2000-2020年批发业舞弊上市公司为样本,并按1:1的比例选择配对样本,研究不同降维方法与机器学习的组合,能够实现对批发零售业上市公司财务舞弊的高效识别3;梁功枭(2021)选取 2016-2019 年上市公司数据,利用随机森林算法构建模型对上市公司财务造假情况进行有效识别预警4。Mengshuang Du(2021)采用规范分析与实证研究相结合的研究方法,以CRIME理论为基础,建立财务舞弊识别模型5;Meng C(2020)以某互联网金融机构的真实在线交易数据为基础,分别研究了DOI:10.16644/33-
3、1094/tp.2023.12.013非平衡数据集下基于XGBoost模型的财务舞弊识别研究*王琦,熊莎丽娜,詹柔,张露,杨鑫,张健(西南林业大学数理学院,云南 昆明 650224)摘要:针对现实中舞弊样本与非舞弊样本存在的数量不平衡情况,通过25个财务指标与2个非财务指标,运用过采样、欠采样技术及XGBoost模型进行财务报表舞弊识别研究。结果表明,SMOTE过采样方法与XGBoost模型的结合在非平衡数据集下具有较好的整体识别效果,对上市公司财务报表舞弊的智能识别有一定参考意义。关键词:非平衡数据集;财务报表舞弊识别;SMOTE;XGBoost中图分类号:TP311.1;F275.5文献标
4、识码:A文章编号:1006-8228(2023)12-59-05Research on financial fraud identification based on XGBoost model in unbalanced datasetsWang Qi,Xiong Shalina,Zhan Rou,Zhang Lu,Yang Xin,Zhang Jian(School of Mathematics and Science,Southwest Forestry University,Kunming,Yunnan 650224,China)Abstract:In view of the unba
5、lance in the number of fraud samples and non-fraud samples in reality,a study on financialstatementfraudidentificationisconductedbyapplyingover-sampling,under-samplingtechniquesandXGBoostmodelto25financial indicators and 2 non-financial indicators.The results show that the combination of SMOTE over-
6、sampling method andXGBoost model has a good overall identification effect in the unbalanced dataset,which has certain reference significance for theintelligent identification of financial statement fraud of listed companies.Key words:unbalanced dataset;identification of financial statement fraud;SMO
7、TE;XGBoost收稿日期:2023-08-18*基金项目:云南省教育厅科学研究基金项目“基于非线性逻辑回归的M-Score模型优化研究”(2022J0523);云南省高等学校大学生创新创业训练计划项目“基于数据挖掘的企业财务报表舞弊识别研究”作者简介:王琦(2000-),女,云南大理人,本科,主要研究方向:财务数据分析。通讯作者:张健(1975-),男,云南红河人,硕士,副教授,主要研究方向:数据分析与数据挖掘。59计算机时代 2023年 第12期XGBoost算法在原始数据集、欠采样和 SMOTE 数据集上的性能6;濮双羽等(2021)选取 68家舞弊企业与68家非舞弊企业构成1:1配对
8、样本,建立Logistic回归模型,整体识别率为86.87%7;吴贞如(2022)以1:2配比选择283个舞弊样本和566个非舞弊样本,使用四种机器学习算法进行舞弊识别研究,结果表明XGBoost效果最好,准确度为86.95%,召回率为83.61%8。通过梳理文献,大部分学者在研究财务舞弊识别的问题中,舞弊与非舞弊样本通常采用1:1或者1:2人工配对,这样做会使得舞弊识别率虚高。本文的特点在于:在非舞弊样本与舞弊样本极不平衡数据集下,分别使用过采样和欠采样技术构建基于 XGBoost算法的舞弊识别模型,避免了人工配对下舞弊识别率虚高的问题,得到的识别结果更加符合实际,为大数据环境下上市公司财务
9、报表舞弊智能识别研究提供参考。2 数据来源本文以国泰安(CSMAR)数据库中我国A股上市公司2010-2020年的财务年报数据为样本,舞弊企业数据来自于违规处理数据库中的“违规信息总表”,排除金融保险类企业,选择出因“虚构利润”、“虚列资产”、“虚假记载(误导性陈述)”和“披露不实”而被处罚的舞弊企业,共筛选出259家企业的490条舞弊记录。非舞弊样本选取了2010-2020年从未发生过舞弊的非金融业上市公司的财务报表数据,每家公司每一年的年报数据作为一个样本,得到24893个为非舞弊样本。其中有大量样本存在一个或多个指标缺失的情况,删除带有缺失值的表报数据,最终得到8621个非舞弊样本,35
10、5个舞弊样本,非舞弊样本与舞弊样本之比为24:1,属于极不平衡数据集。3 指标选取通常采用财务指标与非财务指标结合的方式选择舞弊识别指标。结合文献8-9,本文选取了 29指标,其中包括27个财务指标、2个非财务指标。如表1所示。指标类型盈利能力指标偿债能力指标经营能力指标发展能力指标资产状况指标非财务指标指标名称营业毛利率营业净利率净资产收益率总资产净利润率成本费用利润率流动比率速动比率资产负债率有形资产负债率应收账款周转率存货周转率总资产周转率流动资产周转率固定资产周转率应付账款周转率总资产增长率营业总收入增长率营业总成本增长率净利润增长率固定资产增长率应收账款比率固定资产比率流动资产比率无
11、形资产比率存货流动资产比率货币流动资产比率现金资产比率H5指数(股权集中度)审计意见类型指标符号X X1 1X X2 2X X3 3X X4 4X X5 5X X6 6X X7 7X X8 8X X9 9X X1010X X1111X X1212X X1313X X1414X X1515X X1616X X1717X X1818X X1919X X2020X X2121X X2222X X2323X X2424X X2525X X2626X X2727X X2828X X2929指标计算公式(营业收入营业成本)/营业收入净利润/营业收入净利润/平均股东权益净利润/期末总资产利润总额/(营业成本
12、销售费用管理费用财务费用)流动资产/流动负债(流动资产存货)/流动负债负债总额/总资产负债总额/(资产总额无形资产净额商誉净额)营业收入/平均应收账款主营业务成本/平均存货营业收入/平均总资产营业收入/平均流动资产营业收入/平均固定资产主营业务成本/平均应付账款本年总资产增长额/年初资产总额(营业总收入本年本期金额营业总收入上年同期金额)/营业总收入上年同期金额(营业总成本本年本期金额营业总成本上年同期金额)/营业总成本上年同期金额(净利润本年本期金额净利润上年同期金额)/净利润上年同期金额(固定资产净额本期期末值上年同期期末值)/上年同期期末值应收账款/总资产固定资产净额/总资产流动资产总计
13、/总资产无形资产净额/总资产存货/流动资产总额货币资金/流动资产总额期末现金及现金等价物余额/资产总额前5大股东持股比例的平方和无保留意见取1;无保留意见带解释性说明取2;保留意见取3;拒绝或无法表示意见取4;否定意见取5;未经审计取6;保留带解释性说明取7表1舞弊识别指标60Computer Era No.12 20234 算法原理4.1 XGBoost算法以往研究表明,基于XGBoost算法构建的财务报表舞弊识别模型在所有性能指标上都优于逻辑回归、支持向量机和随机森林算法8,因此本文采用XGBoost作为主要算法。XGBoost是由华盛顿大学的陈天奇博士在2015年对梯度提升算法进行改进而
14、来,其求解损失函数的极值时使用了牛顿法,并将损失函数泰勒展开到二阶,另外在损失函数中加入了正则项。训练时目标函数由梯度提升算法损失和正则项组成,其中梯度提升算法损失衡量模型相对于训练数据的预测效果,正则项则是控制模型的复杂程度,降低过拟合的风险,这样做使得预测模型更符合机器学习中的偏见方差权衡的原则9-10。4.2 SMOTE算法由于舞弊样本只占全部数据集中的极少数,这样的问题称为类失衡。类失衡问题往往会导致模型的训练结果出现较大的偏差。解决类失衡问题主要有过采样和欠采样方法。SMOTE 是一种过采样技术,它的思想是少数类样本中附近的样本依旧是少数类样本,基于此SMOTE的做法是:确定距离某个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 平衡 数据 基于 XGBoost 模型 财务 舞弊 识别 研究