Thinking in BigData（五）大数据之统计学与数据挖掘

最新推荐文章于 2021-11-02 17:35:14 发布

dufman

最新推荐文章于 2021-11-02 17:35:14 发布

阅读量1w

点赞数 4

分类专栏： BigDate MindThink 文章标签：统计学机器学习数据挖掘

本文链接：https://blog.csdn.net/yczws1/article/details/18850211

版权

今天回来，在原来的文章中，添加了一些数据挖掘方面的概念。

上篇博客，我们从”大”，”价值”两点来揭示大数据主要源于哪些企业和在哪些企业应用更广泛。在最后，我么指出了大数据真正的价值：数据挖掘。而什么是数据挖掘，我们抛开传统定义上的数据挖掘的概念，在新形式下，我们应该给数据挖掘的重新认识。由于时间有限，虽题目命名为大数据之统计许与数据挖掘，但是整篇文章基本没有涉及大数据下的这些定义，等有时间在回来补充。

大数据之统计学与数据挖掘

原文章来自于《Statistics and Data Mining: Intersecting Disciplines》作者：David J. Hand文章中指出统计学与数据挖掘的区别。开始认识它们，开始了解大数据处理的最基本的技术概念吧。

统计学与数据挖掘的区别：

共同目标：发现数据中的结构。

最大的区别：DM还应用了其它领域的思想，工具和方法，尤其是计算机科学，如：数据库和机器学习，同时关注的某些统计学家关注的不同领域。统计学有着正统的理论基础，其最初含义是”陈述事实“，以及找出枯燥的大量数据背后的有意义的信息。而现在，统计学又同商业有着特殊的关联。

数据挖掘：仅是考察大量的数据驱动的模型，从中发现最适合的。统计学家常常会忽略对数据的特别分析，他们更偏向于太细致的研究模型，却很难发现明显的结构。这可能就导致搞研究的不适合高技术，搞技术的适合搞研究，这中间的矛盾就是研究者和实践者之间的隔阂了。事实上，大量的数据可能包含不可预测但却很有价值的结构，这就是数据挖掘的任务了。

统计学的性质：

相对保守，发展趋势越来越精确。当然，这本身不是坏事，只有越精确，才能发现真理，但是一旦过度则是有害的。建立在数学背景下的统计，追求精确俨然是一种趋势。在采用一个方法之前，首先考虑的是证明它的正确性。而不是像计算机科学和机器学习注重自学习的过程，注重经验学习的过程。

尽管统计学的一些分支侧重于描述，也会存在一个核心的问题就是通过观察样本情况去推测总体。必然，这也是DM要做的事情。DM的特性：要处理一个大数据集。这就意味着，要考虑到可行性的问题，我们常常得到的只是一个样本，去描述这个样本来自的那个大数据集。这就是我们常说的：样本估计整体。不同点在于，数据挖掘往往可以得到数据总体。例如：一个公司所有职工的数据，数据库中的所有客户的资料，去年的所有业绩，销售记录等。在这种情形下，推断就没有价值了。这就意味着，建立的统计模型是通过一系列概率描述（如：一些参数接近于0，则会在模型中删除。其意思就是这个数据段发生的概率低，在统计学习分类的时候，在前期数据处理的过程中，这段数据就已经被清除了），但当总体数据可获得话，在数据挖掘过程中这就变的毫无意义。

在这里，我们可以从很多方面对应用参数进行评估：针对数据的足够的表述。事实是，我们常常关注模型是否合适而不是它的可行性，在很多情形下，使得得到模型很容易,确在跑实际数据的效果很差（这个问题，是所有数据挖掘者的诟病，有机会我们再来探讨）。例如：在寻找规则时，常常

最低0.47元/天解锁文章

dufman

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
2
评论
Thinking in BigData（五）大数据之统计学与数据挖掘

原文章来自于《Statistics and Data Mining: Intersecting Disciplines》作者：David J. Hand文章中指出统计学与数据挖掘的区别。开始认识它们，开始了解大数据处理的最基本的技术概念吧。说明：前段时间这篇文章，对于数据挖掘工作者来所，很有价值的一篇文章，但是翻译的很拗口。希望通过自己的语言总结一下，可以把一些概念理清。如有错误，后会继续完善。今天回来，在原来的文章中，添加了一些数据挖掘方面的概念。
复制链接

扫一扫

专栏目录