数据分析
zkq_1986
这个作者很懒,什么都没留下…
展开
-
pearson, kendall 和spearman三种相关分析方法的区别
pearson, kendall 和spearman三种相关分析方法的区别:pearson:皮尔森,线性相关性;spearman:斯皮尔曼,单调相关性;kendall:单调相关性;与spearman区别在于某一比较数据需要有序,在有序情况下计算速度比spearman快。原创 2016-07-19 16:12:48 · 13302 阅读 · 1 评论 -
处理过拟合问题
1 定义过拟合是指,对训练数据拟合很好,但对测试数据拟合很差。2 产生原因为什么会产生过拟合?主要有几个原因: 1.训练数据量过小,使得模型过分关注噪声; 2.训练过久,使得模型过多地学习噪声; 其中噪声包括没有代表的样例和没有代表的特征。3 解决办法1 增大训练数据量2 适当停止迭代3 交叉验证,获得较有代表训练数据集4 正则化目标函数通过正则化项,减少目标函数与实际数据的过度吻合,提高系统原创 2016-08-15 11:34:42 · 392 阅读 · 0 评论 -
文本相似度
1 TF-IDFTF=某个词在文档中出现的频次文档的总词数TF=\frac{某个词在文档中出现的频次}{文档的总词数} IDF=log(语料库中的总文档数出现该词的文档数+1)IDF=log(\frac{语料库中的总文档数}{出现该词的文档数+1}) TF−IDF=TF∗IDFTF-IDF=TF*IDF引入IDF是为了消除该词的共性,增强该词的特性。如果这个词只在这篇文档中出现,那这个词就很能代原创 2016-08-09 15:44:19 · 377 阅读 · 0 评论 -
数据挖掘与数据分析方面面试题(1)
1 什么是异常值,列举一种找出连续型变量异常值的方法异常值是指,与大部分样本值的差别较大,也就是离群值。寻找连续型变量异常值的方法可以是这样的:首先,计算样本的标准差;然后,以3倍的标准差作为阈值判断该值是否为异常值,集如果该值与均值的差的绝对值大于阈值,则该值为异常值,反之,为正常值。原创 2017-01-25 09:03:16 · 648 阅读 · 3 评论 -
主成分分析和因子分析
主成份分析y=ax+b, x为自变量,y为因变量(因x变化而变化,自身不会变化)主成份分析:将自变量按一定的线性组合而成新的若干个变量,这些若干个变量就称为主成份,通常主成份个数少于自变量个数,从而达成降维目的。因子分析因子分析:将相关自变量合成一个因子,使得因子内部的自变量相关性最大,因子间自变量相关性最小。它也可以达到降维目的。主成份与因子的区别在于:主成份是由原创 2016-07-20 16:13:08 · 2220 阅读 · 0 评论 -
过拟合
1 过拟合过拟合就是训练模型的过程中,模型过度拟合训练数据,而不能很好的泛化到测试数据集上。出现over-fitting的原因是多方面的:1 训练数据过少,数据量与数据噪声是成反比的,少量数据导致噪声很大2 特征数目过多导致模型过于复杂,如下面的图所示: 看上图中的多项式回归(Polynomial regression),左边为模型复杂度很低,右边的模型复杂度就过高,而中间的模型为比较合适的模型,转载 2016-08-09 10:16:09 · 401 阅读 · 0 评论