数据分析课后作业--企业所得税分析预测模型(代码)

1.求取企业所得税各特征间的相关系数
(1)求取原始数据特征之间的Pearson相关系数。
(2)判断各特征之间的相关性。

#求取企业所得税各特征间的相关系数
import numpy as np
import pandas as pd
inputfile = 'income_tax.csv' #读取数据文件
data = pd.read_csv(inputfile) #读取数据
#输出Pearson相关系数,并保留两位小数
print('相关系数矩阵为:','\n',np.round(data.iloc[1:,1:].corr(method = 'pearson'), 2))

在这里插入图片描述
由结果可知,规模以上国有及国有控股工业企业亏损面(x6 )与企业所得税(y)的线性关系不显著,呈现负相关。其余特征均与财政收人呈现高度的正相关关系,但与此同时,各特征之间存在着严重的多重共线性。分析可知,选取的各特征除了x6 外,其他特征与y的相关性很强,可以用作企业所得税预测分析的关键特征,但这些特征之间存在着信息的重复,需要对特征进行进一步筛选。

2.选取企业所得税预测关键特征
(1)建立Lasso回归模型。
(2)对Lasso回归结果进行解读。

#选取企业所得税预测关键特征
import numpy as np
import pandas as pd
from sklearn.linear_model import Lasso
inputfile = 'income_tax.csv' #输入的数据文件
data = pd.read_csv(inputfile) #读取数据
print('输出原始数据的维度为:',data.shape)
lasso = Lasso(1000,random_state=6666)  #调用Lasso()函数,设置λ的值为1000
lasso.fit(data.iloc[:,1:11],data['y'])  #本题中第一列为年份,应该排除
print('相关系数为:',np.round(lasso.coef_,5))  #输出结果,保留五位小数

#计算相关系数非零的个数
print('相关系数大于零个数为:',np.sum(lasso.coef_ > 0))
mask = lasso.coef_ > 0  #返回一个相关系数大于零的布尔数组
print('相关系数是否大于零:',mask)#这时输出的mask为对应特征是否保留的布尔值
mask=np.insert(mask
  • 5
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值