统计
文章平均质量分 78
Ryan_Yang_
这个作者很懒,什么都没留下…
展开
-
【通俗向】假设检验(四):概率、随机、t检验
【一】t检验的应用 上面一章部分说明了t检验和卡方检验的异同,下面举几个栗子来详细说明下几类t检验。首先t检验的前提是总体分布已知且为正态分布在此补一个对正态分布本质的探讨。现实过程中的离散分布,如果是随机二项分布的话,都会近似正态分布,举几个栗子: 1. 抛10次硬币,出现2次正面朝上的分布(要么朝上,要么朝下) 2. 找100个男人,假设平均身高180,身高的分布(每个人身高和均值的变化都原创 2017-03-13 14:35:36 · 1833 阅读 · 0 评论 -
【通俗向】非参数检验(一)游程检验(Runs test)
游程检验个人感觉是在日常分析过程中很有用的一个检验。游程检验主要检验一件事情发生的概率是否为随机的。游程检验的原理其实很简单:引入一个参数看看整个数列的分布,还是从最简单的抛硬币开始。比如抛硬币,正面是1,反面是0。抛两次,出现一次1,出现一次0。计这个数列为(1,0)游程就是连续1的个数和连续0的个数,在这里游程就是两个;但是正反面只抛两次判定随机是没有意义的。那么我们再做点实验,比如抛了10次,原创 2017-03-14 11:52:34 · 25888 阅读 · 2 评论 -
【R的机器学习】决策树性能提升
上一章用iris数据集进行了决策树分析,理论上来说,Kappa值是0.8991,已经非常高了,我们下面研究下方法,看看有没有什么优化空间。首先看C5.0的函数参数C5.0(x, y, trials = 1, rules= FALSE, weights = NULL, control = C5.0Control(), costs = NULL, ...)C5.0(y原创 2017-06-29 10:38:34 · 3606 阅读 · 0 评论 -
【R的机器学习】Apriori算法
首先关联规则很简单,但是数据的转化具有一定的复杂。先说关联规则,举个通俗的例子,也就是看很多东西之间的关联度,而这个关联度和数值层面的相关性类似,但是通常处理的是因子型或文本型数据。比如购物车的关联购买。比如很多人买了啤酒,然后又买了烟,从业务层面,我们希望卖酒的旁边就是卖烟的,这样能刺激相同用户购买。说到这,可以看到,关联规则是一个特殊的聚类,也就是探究人群购物的本质;但是这种聚类是纯粹的从商品层原创 2017-07-10 11:52:48 · 934 阅读 · 0 评论 -
【R的机器学习】聚类
现阶段,针对iris数据集,我们应用了决策树、随机森林、朴素贝叶斯、神经网络和SVM这些模型来拟合数据,虽然结果略有差异,但是可以说差异不大,效果也还是很理想,主要原因因为这个数据集的特征值比较显著;接下来,我们利用几类无监督学习的方式进行原始数据集的分类,也就是常说的聚类算法。1、kmeans聚类kmeans聚类是最简单的一类聚类方式,聚类方法是,先随机确认中心点,然后找和他距离最近的几个点,重原创 2017-07-07 11:14:18 · 1730 阅读 · 0 评论