Thinking in BigDate（13）大数据之DM经典模型（4）

本文链接：https://blog.csdn.net/yczws1/article/details/20764587

本文介绍了大数据中常用的相似度模型和RFM查询模型。相似度模型通过度量观察值与原型之间的距离来评估相似度，而RFM模型则通过近期、频率和货币三个维度评估客户价值。文章强调了模型构建中的关键步骤和处理稀疏数据的方法，旨在帮助读者理解数据挖掘的基本概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章的立足点，不是基于数据挖掘的算法，和一些详细的算法实施。在读一些大牛的博客中，这方面已经写的非常详细，但是我们一开始看到这的纯技术的博客，一些公式，一些算法，难免吃力。所以前期，有一个整体概念上的疏导是很有必要，对那些想在数据挖掘下点功夫的人，是一件很好的事情。其实我们的困惑是不知道它能做什么，这就是为了开始知道它能做什么而准备。

数据挖掘与统计学之间的区别，我在上面的一篇Thinking in BigDate（五）大数据之统计学与数据挖掘博客中细细谈到过，这里不多赘述。实际上，所有的数据挖掘技术都是以概率论和统计学为基础的。

下面我们将探讨如何用模型来表示简单的、描述性的统计数据。如果我们可以描述所要找的事物，那么想要找到它就会变得很容易。这就是相似度模型的来历——某事物与所要寻找的事物越相似，其得分就越高。

下面就是查询模型，该模型正在直销行业很受欢迎，并广泛用于其它领域。朴素贝叶斯模型是表查找模型中一种非常有用的泛化模型，通常表查询模型适用于较低的维度，而朴素贝叶斯模型准许更多的维度加入。还有线性回归和逻辑回归模型，都是最常见的预测建模技术。回归模型，用于表示散点图中两个变量之间的关系。多元回归模型，这个准许多个单值输入。随后介绍逻辑回归分析，该技术扩展了多元回归以限制其目标范围，例如：限定概率估计。还有固定效应和分层回归模型，该模型可将回归应用于个人客户，在许多以客户为中心的数据挖掘技术之间搭建了一座桥梁。

1、相似度模型

相似度模型中需要将观察值和原型进行比较，以得到相应的相似度得分。观察值与原型相似度越高，其得分也就越高。一种度量相似度的方法是测量距离。观察值与原型值之间的距离越近，观察值的得分就越高。当每个客户细分都有一个原型时，该模型可以根据得分把客户分配到与其最相似的原型所在的客户细分中。

相似度模型有原型和一个相似度函数构成。新数据通过计算其相似度函数，就可以计算出相似度得分。