建投金工深度专题100：机器学习在上市公司财务造假识别中的应用

2021-04-01上一篇： @朝阳纳税人：办税服务“不接触”，线上办理更迅速！|下一篇：纳税申报有风险，会计别给自己惹麻烦，注意这5个风险提醒

建投金工深度专题100：机器学习在上市公司财务造假识别中的应用资讯第1张

核心结论

财务造假数量增加，虚构利润是最主要的造假动机

选取2008至2018年所有造假公司作为造假样本，其他所有无造假公司作为控制样本

我们选取了2008至2018年间，证监会，上交所以及深交所发布的公告中搜集到发生财务造假的A股上市公司作为造假样本，共涉及107家公司的309份年报。部分公司季度报告等出现造假，由于与年报指标不统一，因此不纳入模型考虑。为了保证模型的可回测性，选取控制样本为当年所有无造假的上市公司。同样为了模型的可回测性，对于连续年度造假的样本，将每一年都视为一个独立的造假样本

根据财务指标、公司基本情况和市场指标，构建79个特征变量

依据财务造假常见的手段，结合国内外学者的研究，从财务指标、公司基本情况和市场指标三个维度入手，构建了79个特征变量。为了使不同行业间特征具有可比性，依据中信一级行业分类计算各特征的行业分位值。

使用多种机器学习算法构建预测模型。不同算法性质不同，普遍准确率和召回率较高

风险提示：新的财务造假手段；模型预测的局限性

一、财务造假样本筛选及特征分析

1.1

造假公司的样本整理

在财务造假样本筛选中，我们从证监会，上交所以及深交所发布的公告中搜集到发生财务造假的A股上市公司，选择2008年1月1日之后的样本进行分析。由于财务造假的处罚公布具有滞后性，因此我们删掉最后一年，即2019年的所有样本。

2008年至2018年，因财务造假被披露的事件共涉及到107家上市公司，涉及309份财务报告。在样本选择中，样本来源于2008年1月1日至2018年12月31日受到中国证监会及上交所深交所披露的存在财务违规的中国A股上市公司对应年报。部分上市公司还存在临时报告或者季度报告的造假情况，但此类报告与年报的部分财务指标不一致，故不纳入样本之列。不包含IPO前造假事件。

1.2

造假公司的行业分布

本文使用中信一级行业进行行业分类。从下图来看，财务造假公司的行业分布差异化较大。机械、医药、建材等行业财务造假的数量非常多，是财务造假的重灾区。而交通运输等公司造假的数量几乎没有。

1.3

造假案例的时间分布

在观测造假公司的时间分布时，我们将A股存在造假现象的所有年报作统计，包括一家公司多年连续发生造假行为的年报。从造假年份的分布来看，财务造假的数量呈现明显增多的趋势。2018年造假数量的突然减少，推测可能是部分造假还没有被发现。总体而言，造假的公司越来越多，说明对财务造假的甄别也迫在眉睫。

许多公司的财务造假并不是一年的事情，而是长期、持续的造假，直到后面才被发现。从每个财务造假公司造假的年数来看，造假2年（被发现）的公司最多，大部分公司造假的年数都小于等于4年。也有少部分公司有5-8年的财务造假。

1.4

造假的违规类型

根据证监会及交易所的相关公告，财务造假的违规类型主要为虚构利润、虚列资产、推迟披露、披露不实，虚假记载、重大遗漏、一般会计处理不当等。经统计，超过90%的违规类型都与虚构利润有关，说明绝大部分公司财务造假的目的都是为了改善利润。

1.5

样本处理方式

从图2可以看到，大部分公司在被处罚前都已经造假多年。一般有两种方法处理同一公司连续多个年度造假：（1）只将连续造假的第一年样本记为造假样本，将其他年份的样本扔掉；（2）将每一年的样本都视为一个独立的造假样本。本文采用第二种处理方式，核心原因在于财务造假处罚的滞后性。在某个公司造假处罚公布前，是不知道该不该扔掉某些年度的样本的，这样会导致回测的样本集和实际样本集在造假样本上的差距。而由于造假样本本身数量就相对较少，这样的差距会对模型的预测能力产生较大的影响。

关于控制样本的选择，学术界常用配对法，即预先设定造假样本：控制样本的比例（通常为1:1），通过寻找与造假样本相近的正常公司来一一配对作为控制样本。配对法的优点是解决了样本不平衡的问题，但是缺点是操作任意性大，且无法应用于实际（由于财务造假处罚的滞后性，在处罚公布前不知道哪些是造假的）。同样的，选择造假样本的当年同行业所有无造假公司作为控制样本也会有这样的问题，因为在实际运用中是找不到“造假样本的当年同行业”的。为了回测的严谨性，使模型更加符合实际情况，我们将控制样本定为当年全体无造假的上市公司的年报。这样得到的结果相对于其他样本选择方法的精度会差一些，但是更符合实际情况。

二、财务造假特征的选择

2.1

财务指标

财务指标是甄别上市公司的主要特征。尽管公司对财务指标进行了造假，但其中仍可以发现异常的蛛丝马迹。由于财务指标互相联系，因此，不同指标的同时变化也有助于判断数据是否造假。

在选择财务指标时，首先将传统的财务指标纳入考量，其中包括流动性、周转率、利润、现金流量等类别指标。这些指标是财务分析中重要的指标，可以较好地刻画公司的财务状况，从而可以通过判断这些指标是否异常来推测公司财务造假的概率。

其次，我们构建了增长率指标。不同于一般的财务指标，增长率指标反映的是公司去年到今年的变化，这样的动态指标更能反映公司的财务异动。如果某些指标出现不合理的增长，那就有可能是因为公司财务造假导致。在构建增长率指标时，我们主要考虑了资产端、成本端和盈利端三个方向的增长指标，因为财务造假容易产生不合理的资产、成本、盈利变动。

然后，我们还考率了更多的比率指标，比率的异常也是财务造假的显著特征。比如，公司很有可能虚增大量的应收账款或其他应收款来改善资产负债表结构，那么这些资产的比率就会出现异常；公司还有可能通过虚增收入来达到修饰财务状况的目的，因此收入相关的比率也可能会明显偏高。

本模型一共考虑了41个常用的财务指标。

2.2

公司基本情况

由于财务指标经过粉饰，因此仅仅使用财务指标判断财务造假可能是不够的，需要辅以其他的指标。和公司相关的基本情况可以做一个补充，主要考虑以下4个方向。

公司性质可能会影响财务造假。不同性质的公司对造假的态度可能不同，进而影响造假的可能性。这里，我们选取哑变量作为公司性质的描述，如一个公司如果为民营企业，则该变量为1，其他公司性质相关变量则均为0。

审计信息对于判断财务造假的作用非常之大。一般来讲，审计结果非标的企业都会有极大的财务造假概率。由于审计意见有4种结果：标准无保留意见、带强调事项的无保留意见、保留意见、无法表示意见，为了最大程度保留审计意见的信息，我们设置了哑变量。同样，审计事务所是否变更也可以纳入考量。

公司的人员变动也可能帮助我们判断公司的经营情况。因为对人员信息的造假是非常困难的，所以人员信息可以很好的反映公司的经营状况。经营不善的公司则具备更强的造假动机。因此，根据人员变动设置了人数变量和人数是否减少的哑变量。同时，公司重要人物的更换可能也能说明一些问题，因此又设置了公司重要人员是否更换的哑变量。

最后，还包括一些其他的信息，比如关联交易的影响，以及是否有非经常性损益的变动导致净利润的变号。

2.3

市场指标

市场指标是反映公司经营情况的另一类指标。市场的反应可能会影响管理层的决策，同时市场也会对管理层进行监督和风险考虑。本文市场指标主要考虑以下3类。

市场相关指标，包括常用的市净率、市现率、市销率、市盈率。同时考虑了年平均换手率和年相对涨跌幅，因为市场的交易情况也可能辅助造假的判断。

股息分红指标，可以反映公司的经营情况和盈利能力，一般来说，股息分红较低不意味着造假，但是股息分红较高的企业造假的概率会小很多。这样的指标可以辅助我们判断。

持股情况。机构和大股东的持股比例也可以帮助判断造假，因为一般机构和大股东对企业的监督较严，同时较高的股权比例意味着对公司的信心，因此造假的可能性较低。

2.4

指标处理

我们的指标分为连续变量和哑变量两类。对于所有非哑变量的指标，均取中信一级行业分类计算行业的分位值，即x=(x-min)/(max-min)，从而剔除行业对相关指标的影响，使指标值范围限定在[0,1]，更具有行业间的可比性。

对于有指标缺失的样本直接进行删除，最终造假样本246个，控制样本23024个。

三、造假预测Logistic回归模型建立

3.1

样本的描述性统计和显著性检验

在进行回归之前，我们先对于所有的特征进行描述性统计，并且对造假样本和控制样本作显著性检验。由于样本数量较多，因此在这里只列举通过显著性检验（P值<0.1）的特征。

3.2

Logistic回归预测模型

接下来，使用Logistic回归构建预测模型。Logistic回归是一种常用的分类模型，性质稳定，并且可解释性强，可以捕捉特征的异常值。如果是造假样本，则因变量为1，否则为0。对于Logistic回归，只将通过显著性检验（alpha=0.1）的因子作为备选因子。回归的过程采用逐步回归法，将因子逐步加入模型中，只保留显著的因子，最后得到的财务造假预测模型见下式。

y=ln(p/(1-p))=-6.0509+0.4173*当年利润是否为负+0.9295*预付款项/流动资产+1.2668*董事会人数+0.4508*机构是否减持+1.0261*年平均换手率+2.3280*审计意见：保留+1.5891*审计意见：强调+2.4554*审计意见：无法+0.4006*员工人数是否减少+1.1055*应收账款/营业收入-2.0481*年度累计单位分红

可以看到，上述所有特征变量都相当显著，显著性水平的P值均小于或者接近0.01，说明这些变量的预测功能良好。当然，我们在评价Logistic回归模型的时候，不止要看显著性水平，更需要看系数的方向是否符合经济学意义。

首先，审计意见如果非标，那么公司造假的概率确实会大幅提升，而且我们可以从系数上发现，保留意见和无法表示意见预测财务造假的效用是接近的，而带强调事项的无保留意见相对于标准无保留意见也显著为正，但是没有强调和无法这么强的概率。然后，应收账款和预付款项的比率均显著为正，说明企业很可能通过改变这两项来粉饰财务数据。当年利润为负的系数也为正，说明经营不善的企业更有造假动机。从人员来看，董事会人数多的企业更倾向于造假，而员工减少造假概率变高，也是经营不善的标志。最后，从市场指标看，机构减持的公司造假概率更大，换手率高的公司造假概率更大，而年度累计单位分红越高的企业造假概率越小。可以发现，所有变量系数的方向均符合相应的经济学意义，因此该Logistic回归是非常合理的。

由于Logistic回归可能存在多重共线性的问题，对上述因子做相关性分析。从下图可以看出，基本所有因子的相关系数绝对值都低于0.2或在0.2附近，不存在多重共线性，因此模型结果稳定。

当我们判断一个模型是否合理时，我们不能只看由全样本拟合出的模型，因为这样的模型可能在样本内表现出色，在样本外却失去了预测能力，这样的模型是无法实际使用的。因此，在分析模型的结果时，我们同时给出全样本的结果和分样本的结果进行对比。如果分样本的结果和全样本相差较小，那么说明该模型的效果是稳定的。

在本文中，分样本的实验采用样本集：测试集=7:3的比例进行随机分割。

由于该问题样本不平衡严重，财务造假的公司过少，如果将Logistic回归的阈值定为0.5，则模型会把绝大部分数据都分类为负样本，那么模型就失去对财务造假的预测能力了。因此，根据Dechow(2011)，我们设置先验概率p=造假样本/样本总数=0.01056，则Logistic阈值=ln[p/(1-p)]=-4.54。

由于Logistic回归较好的泛化能力及召回率，意味着它的回归有较大的参考意义。由于所有变量都是缩放到[0,1]区间的，因此我们可以将Logistic回归的系数绝对值作为该特征变量的重要程度。从下图可以发现，除了审计意见外，年度单位分红、董事会人数、应收账款/营业收入、年平均换手率、预付款项/流动资产等特征也是非常重要的，在判别财务造假时要着重关注这些特征。

四、其他机器学习模型的运用

4.1

支持向量机

支持向量机是一类常用的机器学习算法。它被称作大间隔分类器，因为它判定正类不仅要求θ^(T)x>=0 ，还进一步要求，同样的θ^(T)x>=1，判定为负类要求 θ^(T)<=-1。因此，在分类的中间留下了一个安全间距，使得支持向量机具有较好的鲁棒性。

支持向量机不仅能处理线性问题，还能处理非线性的问题。通过选择一个核函数，将数据映射到高维空间，就可以形成非线性的边界。本文采用的是使用最广泛的径向基核（RBF）。

与之前的模型相同，我们使用混淆矩阵和评价指标，对模型进行综合判断。

可以发现，与Logistic回归相比，支持向量机在准确率和精确率上有了一定的提升，而召回率与Logistic回归没有明显区别，这说明模型的精度有了提升，更少地误判没有样本的企业为造假的样本。同时，支持向量机的全样本指标和测试集差距不大，说明支持向量机的结果还是比较稳定的，可以用来实际预测。

4.2

决策树

决策树也是一类常用的机器学习算法。它的原理就是不断的构建节点来进行分类，通过训练集得到树型的分类模型来进行预测。决策树的优势在于，它并不是一个黑箱，它的分类是可以可视化成二叉树的，因此具有经济学意义。常用的决策树算法有CHAID算法、C4.5算法和CART算法，本文使用的是CART算法，它的节点选择依据就是分割后分类所需的信息量最小。

由于决策树非常容易过拟合，所以我们需要对其剪枝，以增强模型的泛化能力。同样的，我们使用和支持向量机相同的加权方式来避免样本不平衡的问题。下面是决策树模型的结果。

决策树也可以得出特征变量的重要性。我们可以发现在决策树算法中，审计意见：标准、年平均换手率、前十大股东持股比例等特征的重要性最高，而在之前的Logistic回归中，审计意见和换手率也是重要的特征，说明这些特征对财务造假的辨识度较强。同样，分红和董事会人数也是重复出现的重要特征。

4.3

随机森林

决策树极容易过拟合的性质导致实际的效果并不好，可以用集成学习的思想强化它的泛化能力。随机森林可以看作是对于决策树经过bagging算法的进化版，核心就是构建多个决策树进行投票分类，从而增强模型的稳定性，改善决策树容易过拟合的缺点。同时，随机森林引入随机特征选择，这样可以使模型对特定特征的依赖程度降低，从而有效地增强算法的泛化能力和准确率。

同样的，我们使用加权的方式降低样本不平衡带来的影响，然后使用混淆矩阵和评价指标评估随机森林模型的效果：

和单一决策树对比，可以发现随机森林的效果明显在全方面上都有所提升，它的准确率和精确率都显著高于其他的模型，精确率是决策树的一倍还要多。同时，由于多个分类器的投票机制，导致随机森林虽然仍存在过拟合问题，但是相对于决策树来讲已经改善了很多。

随机森林展现了和Logistic回归、支持向量机不一样的性质：较高的精确率和较低的召回率。因此，它可能不太适合找出所有的造假样本，但是它可以较精确地判断出造假概率较高的样本，起到警示作用。

随机森林同样可以输出特征重要性。由于随机森林随机特征选择的性质，导致所有的特征重要性水平都较低，但是审计意见、年度累计单位分红、年平均换手率、预付款项/流动资产、应收款项/营业收入等随机森林模型最重要的特征同时也是之前模型中高频出现的特征。因此，通过不同模型的验证，可以将这些特征作为实际判断财务造假的重要参考指标。

五、总结

中信建投金融工程深度专题报告回顾

（点击标题可查看历史文章）

【 资产配置】

【 因子选股】

【 交易策略与衍生品】

【基金产品研究与FOF】

证券研究报告名称：《机器学习在上市公司财务造假识别中的应用》

对外发布时间：2020年09月30日

报告发布机构：中信建投证券股份有限公司

免责声明：