财务舞弊自动识别的荆棘之路：169万个数据样本建模实验

2021-10-20上一篇：公司为什么要财务审计|下一篇：小规模纳税到底是3%还是5%？

风云君之前写过一篇文章《识别财务舞弊的“机器之眼”：本福特定律建模》。在文章中风云君向大家展示了如何编写基于本福特法则的Python程序，但是由于篇幅所限并没有进一步与大家探讨本福特法则在A股市场中的应用。

风云君希望在这篇文章中能和大家一起探讨一下本福特法则的实际应用。

一、回顾本福特法则

首先我们来回顾一下本福特法则是什么。

该定律说，在一个自然数据集中，数字首位越小，出现的几率越高。通俗易懂的说，就是在一堆数里，1打头的数肯定比9打头的数要多。

而且这种多还不是随机的多，是有规律的多。具体首位数字出现的规律如下：

至于为什么1开头的数字比较多，其实也好理解。这里举个例子。比如在计划节食减肥的人群中，能坚持1天的人肯定比坚持9天的人数要多，同理能坚持十几天的人肯定也比能坚持九十几天的人多。

至于为什么出现频率为30.1%，17.6%，12.5%…..其结果至今也是众说纷纭，没有定论。虽然原理不确定，但是本福特法则惊人的准确性让人们不得不相信这只无形的手。

不信的话我们一起来看一下A股上市公司年报数据是否符合这个定律。

这次我们选用的数据涵盖了2013-2017五年间所有A股上市公司的现金流量表、资产负债表和利润表的数据，包含了169万多个数据。数据来源是网易的报表下载接口。

先看一下五年全部数据。蓝色为实测数据，橘色为根据本福特定律预测的数据。可以看到实测值与预测值的吻合度非常高。

接下来我们再把数据按年度拆分，看一下是不是每一年的数据都可以符合本福特法则的规律。结果本福特法则果然没让我们失望，每年的吻合程度都是非常的高。

如此高的吻合度很显然不能被解释为巧合了。

二、“偏离度”的构造

以上的年度数据和总数据都非常的贴近本福特法则的预测值，所以我们可以轻易地通过观察得出以上数据符合本福特法则结论。

但是如果实测获得的数据和预测值不尽相同时，我们该如何判断数据是否符合本福特法则呢?或者说，我们是否可以量化观察值和预测值之间的关联性呢?

于是我们引入了卡方检测的方法。卡方检测是一种统计学上的假设检测方法，估计大家对枯燥的统计学也没什么兴趣，所以其具体内容就不在这里多做论述了。

简而言之就是通过计算，我们可以得出是否拒绝假设的结论，从而证明两组数据的分布规律是否相同。最后将不符合本福特法则的数据除以总量就可以计算出一个“偏离度”。

例如我们可以计算五年时间段内，按行业分类的偏离度。所有行业的偏离度平均值为55.72%。其中房地产、银行和综合三个行业偏离度最低，家用电器，轻工制造和钢铁三个行业偏离度最高。

这个结论怎么解释呢?

房地产，银行业等行业明显近两年发展较好，造假动力自然也相对较小;而钢铁，轻工制造等行业明显利润率偏低，经营压力大，所以财务舞弊动力更大。

观测结果与自然逻辑基本吻合。

三、两类特殊情况的印证

在构建了“偏离度”这个检测工具后，我们如何来进一步检测本福特法则对财务造假的解释性呢?

我们不如先来想想什么样的公司有比较强烈的造假意愿。

如果按时间点来看的话，有两种情况首先跳入了风云君的大脑，这两种情况都是上市公司处于特殊的上市阶段。

第一类是公司首次公开募股(IPO)之前。

造假的动机来源于两处：首先就是要通过粉饰上市前业绩来满足上市的门槛，在现有的审批制上市制度下，上市门槛对于一些企业来说还是比较高的;其次把上市前业绩粉饰的好看一点也可以把公司卖出个好价钱。

那么，我们就用“偏离度”检测来验证一下观点。

首先我们来看2017年IPO的公司，2017,2016,2015三年财务报表数据的“偏离度”和当年样本总体的比较———结果发现公司IPO前的财务数据的偏离度明显高于总体样本，疑似被掺入了更多的人为成分。

同样的结果也出现在2016和2015年IPO公司的数据对比结果中，上市前财务数据的“偏离度”明显高于总体水平。

第二类则是当年被ST的上市公司。

上市公司如果出现两年业绩亏损或其他财务异常状况时，会被交易所打上“特别处理”的标签，简称ST。

被ST处理的股票不仅要面临公司声誉受损，每日涨跌幅限制在5%以内等面子上的“小问题”，更严重的是很多大机构不会投资ST类标的，ST公司融资渠道也会变窄，融资成本面临抬升。

虽然一般ST类公司的经营情况只能用惨淡来形容，但是高管们脱帽摘星的愿望还是很强烈的。有的上市公司管理层眼看着仅靠自己的力量脱帽摘星无望，干脆就直接搞资产重组或者卖壳。

有的老板的想法却“很傻很天真”，本着万事不求人、不给组织添麻烦的态度，单纯地靠公司会计的财务技巧粉饰财报。

你们要是问风云君“难道没有老板想真正的通过好好的治理公司扭亏为盈吗?”风云君只能告诉你：“你这么天真，是不是很容易推倒?”

言归正传，那么我们构建的“偏离度”指标是否能支持我们的猜想呢?

统计结果显示，在剔除当年进行过重大资产重组的ST股后。ST股当年财务报告中数据的偏离度要明显高于当年其他公司的平均水平。

四、本福特的缺憾

相信看到这里，风云君仿佛看到很多读者们的眼中已经闪起了光芒：有了这么有效的指标，是不是以后都可以不用再读风云君写的文章了?是不是以后就可以超越风云君潇洒的气质和英俊的容颜了?

要是这么想的话，风云君只能说，你们又天真了，皮皮虾都没你们皮。

本福特法则主要用于检测财务报表是否被人为干预，但是在实际操作中，可以说所有公司的账目都被人为调整过的。

调整并不意味着造假，在很多情况下都是会计准则内允许的调账。

虽然本福特法则在A股的大数据环境下显示出了很好的吻合度，但是对于个股的小数据来讲匹配度并不理想。

比如某些有着严重造假嫌疑的公司的“偏离度”非常低。又比如某些缺乏造假动机的企业，甚至是银行类的企业“偏离度”又非常高。

所以就目前来说，我们还不能直接通过本福特法则来判断上市公司财务是否造假。

下面表格中列举的是本次测试中偏离度较较高的三十家上市公司，这些公司中有很多还没有被市值风云既往的研究覆盖。没有研究就没有发言权，所以我们并未对下表中的任何一家公司有任何倾向性意见。

就像上文所说，风云君并不能使用模型直接判定某些公司进行了财务造假，但是风云君会运用本福特指标的帮助，对被指标预警的企业持续关注，如果真有财务问题，风云君一定会把她扒个干净。

然后推倒在地。