基于数据挖掘的内部控制信息披露违规预警与防范

Early Warning and Prevention of non-Compliance of Internal Control Information Disclosure based on data Mining

摘要:高质量的内控信息披露可以促进资本市场的健康发展。论文选择2017年沪深A股上市的公司为研究对象,选取公司财务、公司治理、投资者保护、市场和执行特征及激励,结合财务与非财务指标建立预警指标体系;并使用贝叶斯分类、逻辑回归、决策树和K近邻学习来预测内部控制信息披露违规。研究表明,经过特征选择,不合规行为的预测精度显著提高,其中逻辑回归模型表现最好;其次在预测过程中,非财务信息比财务信息贡献更大。

1 Introduction

2 Model Formulation

A 贝叶斯预测模型

\small P\left ( c/x \right )=\frac{P\left ( c \right )P\left ( x/c \right )}{P\left ( x \right )}=\frac{P\left ( c \right )}{P\left ( x \right )}\prod_{i=1}^{d}P\left ( x_{i}/c \right )

其中 \small c 是内部控制信息披露合规性的分类,分为合规与违规,即为二分类问题;\small x 为研究样本的属性,即内部控制信息披露预警系统指标。

B 逻辑预测模型

\small Logit\left ( p \right )=In\left ( \frac{P}{1-P} \right )=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+\cdot \cdot \cdot +\beta_{m}X_{m}

其中 \small P 为内部控制信息 披露不合规概率,\small X 我饿内部控制信息披露预警系统指标。

C 决策树预测模型

生成决策树的步骤如下:

(1)生成节点;

(2)如果训练样本S都属于同一个类R,则将节点标记为类R的叶节点,程序结束;

(3)若属性集M为空,则训练样本S中M上的样本值相同,Node将类R叶节点标记为训练样本S中最多的类,程序结束;

(4)从属性集M中选出最优划分属性集m,m的每个值为m(u),对Node生成一个分支,使用S(v)表示S 的样本子集,它的值为m上的m(u)。

(5)如果S(v)为空,则将分支节点标记为叶子节点,将其类别标记为训练样本S中最多的累,否则返回添加子决策树的节点。

一般来说,树越小预测能力越强,因此采用预剪枝的方法对决策树进行剪枝。

D k近邻学习预测模型

假设样本集中每一个数据点都有一个独立的分类标签,设定输入为K最近邻和类标签为Zu的数据点,输出为类标签Cu。算法步骤如下:

步骤一:初始化k-最近邻集;

步骤二:对样本集s中每个 \small X_{i} ,做以下判断;

1) \ If \ \left | N \right |< k, \ then N=N\cup \left \{ X_{i} \right \}

\begin{align*} 2) \ \ If \ \left | N \right |> k, \ d\left ( Z_{u},X_{j} \right )=max\left \{ d\left ( Z_{u},X_{\tau} \right )/ X_{\tau } \ \epsilon N \ \right \} \ and \\ \left ( Z_{u},X_{j} \right )> d\left ( Z_{u},X_{i} \right ), \ then \ N=N-\left \{ X_{j} \right \}; \ N=N\cup \left \{ X_{i} \right \} \end{align*}

步骤三:如果Xu是N中数据对象数量最多的,则输出Xu类标签Cu,即Zu的类标签为Cu。

3 Construction of Early Warning Model Index System

A 公司财务指标12个

选取以下财务指标作为公司财务预警变量:财务杠杆系数、流动比率(流动资产/流动负债)、应收账款周转率、净利润变现率、净资产收益率、主营业务收入、信贷比率、权责发生制的利润率、其他应收款比例、存货周转率、期间费用比例、折旧率

B 公司治理指标8个

国有股比例、第2-10大股东持股比例的Herfindahl指数、第1大股东持股比例、董事会的规模、独立董事的比例、总经理和董事长是否为同一人、董事会会议次数、股东大会次数

C 高管的人员特征与激励指标9个

平均年龄、平均任期、平均教育背景、性别(女性)比例、董事薪酬的前三(占董事会、监事会及高管薪酬总额的比例)、高管薪酬的前三(占董事会、监事会及高管薪酬总额的比例)、高管持股比例、董事会持股比例、代理成本(管理费用/资产)

D 投资者/第三方监管保护指标4个

审计意见类型(标准无保留审计意见1,其余为0)、是否更换会计事务所(更换为1,其余0)、财务重述/上诉仲裁(有为1无为0)、投资者监管(基金比例)

E 市场指标3个

股票换手率、P/E市盈率、P/B市净率

4 Expirical Test and Analysis

A 研究对象

本文选取2017年沪深两市所有披露内部控制自我评价报告的a股上市公司作为研究对象。不包括当年退市、新上市和停牌的上市公司;不包括金融类上市公司;排除数据不完整或无法获得的上市公司。经过筛选,共获得2442家样本公司。本文数据主要来源于Dibo数据库、国泰安数据库、万得数据库,通过人工采集新浪财经网的相关变量,逐一进行整理。

B 实验数据

训练集和测试机按7:3随机划分,每个样本有5个维度,共36个指标,预测内部控制信息披露行为合规性的输出变量为1或0。

 C 实验过程

经过CFS特征选择,原始36个属性减少为10个属性:净资产收益率、国有股比例、第1大股东持股比例、董事会会议次数、平均任期、审计意见类型、是否更换会计事务所、财务重述/上诉仲裁、投资者监管、P/B市净率。

5 Conclusions and Implications

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值