工商库使用陷阱(一):被忽视的企业经营范围变更问题,究竟会怎样影响学者的研究结论?

更多详情请点击查看原文:工商库使用陷阱(一):被忽视的企业经营范围变更问题,究竟会怎样影响学者的研究结论?

▶ 目录

一、以统计“每年新注册多少家经营范围包含‘人工智能’的企业”为例

二、容易陷入的误区:时点截面数据带来的误差

三、如何避免这一陷阱:巧用历史变更表和历史切片数据

四、下集预告

自2015年起,学术界开始出现采用中国全量工商企业注册数据库(简称“工商库”)进行研究的论文,至今已有数千篇论文直接或间接利用工商数据开展研究。其中不少作品已成功发表在国内外的顶级或核心期刊。

图片

图1 历年用了工商数据发表在七大刊以及CSSCI期刊的文章数量

来源:根据知网使用工商数据的文章数量不完全统计

备注:“七大刊”为《经济研究》《管理世界》《世界经济》《中国工业经济》《数量经济技术研究》《经济学(季刊)》《金融研究》

然而,在利用工商库中的企业经营范围数据开展聚焦于某一行业的研究时,我们注意到许多学者往往忽视了企业经营范围的变更情况,这可能会使得数据的统计结果存在显著偏差,从而对研究结果产生严重影响,甚至产生错误的研究结论。在下面的例子中,我们可以清楚地看到这一点。

Part1 以统计“每年新注册多少家经营范围包含‘人工智能’的企业”为例

在近期利用工商库做的经济学实证研究中,人们经常用每年新注册企业数量来度量某行业的发展情况。假设我们想要分地区统计每年有多少家经营范围包含“人工智能”关键词的企业(下文中简称“‘人工智能’企业”)注册进入市场,以此衡量某年某地区人工智能产业的发展状况。

并且,我们有以下两套同一数据来源但保存时间不同的时点截面工商数据可以被使用:

  • A数据:截止到2020年6月底的工商时点截面数据(简称202006截面)

  • B数据:截止到2023年6月底的工商时点截面数据(简称202306截面)

注:以上数据均来源于国家企业信用信息公示系统,由企研数据整理提供。

两套数据的筛选操作一致,都是根据企业的经营范围字段,将含有“人工智能”的企业筛选出来,并按照企业成立年份进行统计。

Part2 容易陷入的误区:时点截面数据带来的误差

如下图所示,这两套数据的覆盖范围都截止到了2019年,因此,依托这两份数据得到的两个版本的2000-2019年的统计结果,很明显,近十年这两套统计数据的偏差极为显著!这种偏差就是由企业经营范围在时序上的变更带来的。

图片

图2 工商库2020年6月截面与2023年6月截面对比

具体来说,在2020.6-2023.6这3年的时间中,那些在2019年及以前就已经成立的企业,在这期间经营范围有了很大的变化。举个例子,假设A企业在2018年成立注册,成立时尚未涉足人工智能领域,但到了2022年,该企业开始涉足人工智能,并将其经营范围加上了“人工智能”。那么当我在2023年6月用“人工智能”这个关键词在国家企业信用信息公示系统进行查询时,得到的结果中出现了这家企业,就会将该企业计入2018年新成立“人工智能”企业数量中。然而在2020年6月进行查询时,结果中不出现该企业(参见图3)。那些在2020年6月之前还未涉足人工智能从而经营范围不包含人工智能的企业,在随后三年中,在经营范围中增加了“人工智能”,从而导致两个时点的截面数据统计的结果存在很大差异。

图片

图3 一家“人工智能”企业假设性案例的时间脉络展示

文献回顾表明,大量利用工商数据开展的细分行业(如数字经济、人工智能等)研究,其数据都来自一些商用企业查询平台的筛选统计。而市面上的企业信息查询商业平台(如天眼查)或者官方平台(国家企业信用信息查询平台)展示的都是时点的截面信息。且不论平台固定的筛选条件是否符合行业定义,只要利用这种方式统计的结果,都存在上图所展示的偏差。并且,由于在不同时间节点进行搜索和筛选,获得的历年新成立企业数量是不同的,因此利用相同平台筛选到的数据开展相同主题的研究,可能结论也会存在显著差异。这种数据的不一致性,一方面使得研究结果难以复刻,与学术研究的宗旨相悖,更重要的是,所得到的估计值存在系统性偏误,对政策效果的成本-收益评估会产生影响(设想一个极端的例子,在当前数据中筛选某个衰退行业得到零个企业,就会造成这个行业不曾出现的假象)。

Part3 如何避免这一陷阱:巧用历史变更表和历史切片数据

既然使用在不同时点获取的数据,统计结果会产生这么大的差别,那我们应该以哪套数据为准呢?显然,就像调查数据一样,我们想要知道调查对象2022年的家庭情况,最好是2023年就开展调查,以便被调查对象很容易记起来。所以,如果我们想利用工商数据去了解全国各地2022年的人工智能企业注册情况(以经营范围中是否有“人工智能”字眼来简单识别),最好是利用2023年年初的时点截面数据。其他年份也是如此,如果我们要获得2000-2019年的可靠统计结果,那么我们需要从2000年年底(或2021年年初)开始,每年保存一份时点截面数据。这样一来,我们利用追求实时变更以提供即时商业资讯的查询平台来开展统计,显然是缘木求鱼的行为。

但是,以上是理想状态,各类商业资讯查询平台的企业数据都源于市场监管局的国家企业信用信息公示平台,而该平台是2014年2月才正式上线的,所以不可能保存有之前年份的时点截面数据。即便在2014年之后,市面上也很难找到保存有工商库历史时点截面数据的公司,企研数据可能是少有的存在。

那么还有什么办法呢?

事实上,工商数据库中有变更表,企业的名称、经营范围、经营地址的历史变化都被记录在对应于该企业的变更信息表中。如果想要准确地知道企业早年的信息,还可以利用企业变更信息表这一资讯。保存历史信息,从效率上来说,这种模式比我们每年保存时点截面数据要更为科学有效。但这种保存数据的方式,对我们开展科研工作会带来难度。因为现实中的变更表不仅结构上学术不友好(图4是某查查上查询到的华为的变更记录),更重要的是存在无法追溯根源的缺失和错误(图5展示了一家公示系统上在营的“人工智能”企业,但其最后一条涉及到经营范围变更的变更记录显示变更后为“无”)。

图片

图4 企查查数据样例

图片

图5-1 国家企业信用信息公示系统数据样例-营业执照信息

图片

图5-2 国家企业信用信息公示系统数据样例-变更信息

回到刚才的例子,我们可以尝试将2023年6月的数据与历史变更记录进行匹配,对企业经营范围进行必要的清洗,尝试将其还原到2020年6月的截面情况(当然理论上可以还原到任何一个时点,比如2000年)。可以发现,至少在这个例子中,这种方法的清洗效果非常显著。下图显示,2000-2019年的统计数据,通过变更表还原202306截面数据得到的最终结果与202006截面数据得到的结果高度吻合。

图片

图6 工商库2020年6月截面与2023年6月截面对比(变更表简单清洗)

下图是利用变更表简单清洗将2023年底截面数据还原至各年底截面后进行筛选统计获得的历年新注册“人工智能”企业数量,可以直观地看到,直接用2023年底截面数据的统计结果显著高估了每年的实际注册企业数量,尤其时间偏离越远的年份误差越大(以倍率判断),这符合我们的预期。

图片

图7 工商库历年新注册“人工智能”企业数量

Sounds too good to be true? 只需要处理变更表就可以完美解决?理论上可以,但事实的情况是,变更表中的记录并不规范,清洗难度较大;而且要归类人工智能企业涉及的关键词颇多(不仅仅简单包含“人工智能”这一关键词),这无疑是一项庞大而复杂的工程。

Part4 下集预告

在深入挖掘历年注册企业数据的过程中,我们意识到,如果忽略企业经营范围的变更,分析结果的准确性便可能受到质疑。但这是否意味着这一问题仅在这一场景下造成误差?显然,其影响远不止于此。比如,新增“人工智能”企业数是否就等同于新注册“人工智能”企业数?有没有更好的指标来更准确衡量行业扩张状况?

在接下来的研究中,我们将聚焦于企业经营范围变更问题,并以学术界广泛追踪的一个关键指标——"xx行业新增企业数"——为切入点,深入探讨其可能引发的更广泛和深远的影响。敬请期待!

相关内容推荐

数据质量检测 | 对一份中国工商企业注册数据库的质量考察

数据质量检测|论数据质量差异的显著性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值