![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
yan_ncwu
这个作者很懒,什么都没留下…
展开
-
ANOVA分析的解释
经常,我们在对比两个模型的时候,使用ANOVA进行分析,其产生的结果我们可以分析如下其中,Res.Df分别标识两个模型的自由度,Res.sum表示了两个模型的Deviance, 147表示了两个模型deviance的差。 F value表示(dev(g2)-dev(g))/(dev(g)/df.residual(g)), pr(>F)表示了F值大于F_value的概率...原创 2019-03-31 15:55:49 · 9757 阅读 · 0 评论 -
值得关注的R统计分析和机器学习框架
原创 2019-04-05 13:37:12 · 275 阅读 · 0 评论 -
基于孤立森林的异常值检测
孤立森林基于异常点和正常点存在显著不同的特征,在构建决策树进行对每个点进行分类时,异常点容易区分,通常距离根节点近这样的特征进行异常点探测。在算法中,设置了异常值函数,s(x, n) 计算具有n个值得x得异常度在sklearn的Ensemble包中,存在IsolationForest类,其使用方法为clf = IsolationForest(n_estimators = 100,...原创 2019-04-09 20:10:19 · 1552 阅读 · 0 评论 -
基于PCA的数据降维及可视化
通常,对于高维或超高维数据,学习困难甚至无法学习,难以进行数据的可视化。】PCA(Principal Component Analysis)就成了降维处理这些数据的有效手段,PCA通过将各维度的数据进行线性组合,然后进行数据变换,去掉不重要的数据。在使用PCA进行降维前,考虑各维度数据量纲和跨度不同,需要对各维度的数据进行标准化处理,常用的方法是将数据进行正态化,及减均值/标准差,即进行S...原创 2019-04-17 18:38:19 · 5776 阅读 · 0 评论 -
c#中百分位值的计算
在程序中,我们经常需要计算一个series的某个百分位数据,如50%分位(中值),25%和75%分位等。在R和Python 中往往有现成的程序,在C#中,我们可以计算为: public static double Percentile(IEnumerable<double> seq, double percentile) { var ele...原创 2019-04-22 21:08:57 · 2052 阅读 · 1 评论 -
均值比较
假定数据源1的采样, 和数据源2的采样,我们希望比较两个数据源的均值是否相同,根据采样数据的分布,可以有参数化方法和非参数化方法。参数化方法假定数据遵从正态分布,非参数化方法则无此假定。参数化方法 采用t.test(x, y)非参数化方法,采用曼-惠特尼方法,wilcox_test...原创 2019-04-18 08:16:21 · 2030 阅读 · 0 评论