统计算法
乐无异kop
这个作者很懒,什么都没留下…
展开
-
AQI(空气质量指数)分析与预测(三)
空气质量主要受哪些因素影响猜想一:人口密度是否会对空气质量造成影响猜想二:绿化率是否会影响空气质量绘制空气质量、人口密度、绿化率的散点图矩阵,观察是否有影响sns.pairplot(data[['AQI','PopulationDensity','GreenCoverageRate']], kind='reg')我们也可以通过计算相关系数确认相关性,如下以空气质量与降雨量为例:...原创 2020-04-17 10:08:56 · 4984 阅读 · 1 评论 -
RFECV方法实现特征选择
RFECV方法实现特征选择分成两个部分:RFE(Recursive feature elimination):递归特征消除,用来对特征进行重要性评级。CV(Cross Validation):交叉验证,在特征评级后,通过交叉验证,选择最佳数量的特征。具体过程如下:RFE阶段1 初始的特征集为所有可用的特征。2 使用当前特征集进行建模,然后计算每个特征的重要性。3 删除最不重要的...原创 2020-04-15 07:33:50 · 18860 阅读 · 0 评论 -
偏态分布的均值与中位数关系
如何解释均值和中位数的大小关系呢?实验室要处理敦煌莫高窟人流数据处理的任务,观察到每个洞窟的访问时间应该时遵循正偏态分布的。于是想起数据挖掘课上提到的正偏态分布中,均值大于中位数的问题。思考很久无法证明。关于正偏态,正态和负偏态的图如下。正偏也叫右偏,看起来好像是峰值在左,怎么会叫右偏呢?按维基百科的解释是:传统定义,均值大于中位数的称为右偏,也可以理解为长尾在右侧。同理可知,...转载 2020-04-11 18:13:31 · 35599 阅读 · 1 评论 -
编写程序计算当正态分布覆盖99%的数据时,大概为多少倍标准差
根据题目,我们通过Python实现该需求。已知当正态分布覆盖95%的数据(置信区间95%)时,标准差为2;正态分布覆盖99.7%的数据(置信区间99.7%)时,标准差为3,故置信区间99%时的标准差一定在2和3之间。代码如下:#定义标准差scale = 10#定义总体数据x = np.random.normal(0,scale,size=10000)#定义标准差的倍数,从2到3,每次...原创 2020-04-03 08:18:47 · 7862 阅读 · 0 评论