数据分析
文章平均质量分 62
王亨
这个作者很懒,什么都没留下…
展开
-
数据质量分析
在数据分析和数据挖掘之前,我们首先要做的就是对数据进行预处理,将那些所谓的“脏数据”给去除掉,提高数据分析和挖掘的准确性和有效性。也就是说数据质量分析是数据挖掘和数据分析的重要开头。只有正确有效的数据才能挖掘出真正隐藏的信息。否则则会导致很严重的损失。说到数据预处理,他有多种方法,比如:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低原创 2016-03-10 00:32:31 · 17730 阅读 · 0 评论 -
标准差 标准误 偏度系数和峰度系数的作用
标准差和标准误是两个不同的概念,标准误的计算公式为标准误在标准差的基础上消去了数据量带来的影响,对一些数据量相差大的数据集来说,标准误比标准差更有意义。偏度系数和峰度系数是一个可以用来衡量数据集的分布形状的系数。偏度系数的计算公式如下: 它是一个取值通常在-3--3之间的值,它衡量了数据集的对称程度。偏度系数越接近0,这说明数据集越对称,越远原创 2016-08-01 01:47:41 · 41018 阅读 · 2 评论 -
数据科学和机器学习中使用的最多的20个R语言包
在数据科学和机器学习中使用的最多的20个包都在这里。翻译 2016-05-15 17:25:37 · 6675 阅读 · 0 评论 -
爬虫 | 正则表达式提取腾讯教育新闻链接及图片链接
前面的爬虫都是通过标签来爬取的,今天就分享一个小例子使用正则表达式来提取网页信息。如果你对正则表达式不熟悉,可以查看我之前写的R正则表达式这篇文章。它对R几个常用正则表达式进行了详尽的解释,包括参数说明,函数区别,正则表达式转义等都有介绍。今天通过爬取腾讯教育(http://edu.qq.com/)网页的所有关于教育新闻的链接,另外也爬取图片链接。提取新闻链接首先我们来分析一些教育类新闻链接的特点...原创 2018-05-18 18:50:29 · 1685 阅读 · 0 评论