Thinking in BigData(五)大数据之统计学与数据挖掘

       今天回来,在原来的文章中,添加了一些数据挖掘方面的概念。

       上篇博客,我们从”大”,”价值”两点来揭示大数据主要源于哪些企业和在哪些企业应用更广泛。在最后,我么指出了大数据真正的价值:数据挖掘。而什么是数据挖掘,我们抛开传统定义上的数据挖掘的概念,在新形式下,我们应该给数据挖掘的重新认识。由于时间有限,虽题目命名为大数据之统计许与数据挖掘,但是整篇文章基本没有涉及大数据下的这些定义,等有时间在回来补充。

大数据之统计学与数据挖掘

       原文章来自于《Statistics and Data Mining: Intersecting Disciplines》作者:David J. Hand文章中指出统计学与数据挖掘的区别。开始认识它们,开始了解大数据处理的最基本的技术概念吧。

统计学与数据挖掘的区别:

        共同目标:发现数据中的结构。

        最大的区别:DM还应用了其它领域的思想,工具和方法,尤其是计算机科学,如:数据库和机器学习,同时关注的某些统计学家关注的不同领域。统计学有着正统的理论基础,其最初含义是”陈述事实“,以及找出枯燥的大量数据背后的有意义的信息。而现在,统计学又同商业有着特殊的关联。

        数据挖掘:仅是考察大量的数据驱动的模型,从中发现最适合的。统计学家常常会忽略对数据的特别分析,他们更偏向于太细致的研究模型,却很难发现明显的结构。这可能就导致搞研究的不适合高技术,搞技术的适合搞研究,这中间的矛盾就是研究者和实践者之间的隔阂了。事实上,大量的数据可能包含不可预测但却很有价值的结构,这就是数据挖掘的任务了。

统计学的性质:

        相对保守,发展趋势越来越精确。当然,这本身不是坏事,只有越精确, 才能发现真理,但是一旦过度则是有害的。建立在数学背景下的统计,追求精确俨然是一种趋势。在采用一个方法之前,首先考虑的是证明它的正确性。而不是像计算机科学和机器学习注重自学习的过程,注重经验学习的过程

        尽管统计学的一些分支侧重于描述,也会存在一个核心的问题就是通过观察样本情况去推测总体。必然,这也是DM要做的事情。DM的特性:要处理一个大数据集。这就意味着,要考虑到可行性的问题,我们常常得到的只是一个样本,去描述这个样本来自的那个大数据集。这就是我们常说的:样本估计整体。不同点在于,数据挖掘往往可以得到数据总体。例如:一个公司所有职工的数据,数据库中的所有客户的资料,去年的所有业绩,销售记录等。在这种情形下,推断就没有价值了。这就意味着,建立的统计模型是通过一系列概率描述(如:一些参数接近于0,则会在模型中删除。其意思就是这个数据段发生的概率低,在统计学习分类的时候,在前期数据处理的过程中,这段数据就已经被清除了),但当总体数据可获得话,在数据挖掘过程中这就变的毫无意义。

        在这里,我们可以从很多方面对应用参数进行评估:针对数据的足够的表述。事实是,我们常常关注模型是否合适而不是它的可行性,在很多情形下,使得得到模型很容易,确在跑实际数据的效果很差个问题,所有数据挖掘者的诟病,有机会我们再来探讨)。例如:在寻找规则时,常常

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值