电子商务应用课程知识整理第六章-数据挖掘

最新推荐文章于 2024-04-09 09:02:05 发布

butteringing

最新推荐文章于 2024-04-09 09:02:05 发布

阅读量1.7k

点赞数 1

分类专栏：课程学习文章标签：电子商务数据挖掘最近邻分类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45668903/article/details/111876650

版权

课程学习专栏收录该内容

30 篇文章

订阅专栏

一、概述

数据挖掘（Data Mining）：从大量数据中寻找其规律的技术，是统计学、数据库和人工智能等技术的综合，是从大量、不完全、有噪声、模糊、随机的实际应用数据中，提取隐含在其中、事先不知道、但有潜在的有用信息和知识的过程。

数据挖掘的四大核心任务：关联分析、分类与预测、聚类分析、异常检测。

二、关联分析

关联：某种事物发生时其他事物也会发生。

关联规则的表示形式
R：X→Y，其中，X和Y是两个不相交的项集，即X，Y⊂I 且X∩Y=Φ
X称为规则的前提或前项，Y称为结果或后项

概念：

交易（事务）：每一条购买记录成为一个交易。
项集：包含一个或多个项的集合。
支持数（σ）：一个项集在所有交易中出现的次数。
支持度（s）：s（X→Y）= 同时包含X和Y的交易数 / 总交易数
置信度（c）：c（X→Y）= 同时包含X和Y的交易数 / 以X作为前项的交易数

关联分析步骤：

设定最小支持度minsup和最小置信度minconf
找出（s ≥ minsup）∧（c ≥ minconf）的项集作为频繁项集
由频繁项集产生强关联规则

用于寻找频繁项集的算法

算法一：蛮力法

当有d个项时，将产生 $2^d$ 个候选项集，产生的关联规则总个数有 $3^d-2^d+1$ 。

算法二：Apriopri算法（先验算法）

算法基于的先验知识：频繁项集的子集也一定是频繁的。例如：如果{A，B}是频繁项集，则{A}和{B}也一定是频繁项集。

对于k各项，从1到k，递归地查找频繁项集。
在这里插入图片描述

三、分类与预测

分类：用于预测离散的目标变量，预测类别未知的数据项的类别。
预测：用于预测连续的目标变量，主要方法时回归。

分类的目的时获取分类函数或分类模型（分类器），该模型能把数据项映射到一个指定类别。
分类可用于提取描述重要数据类的模型或预测未来的数据趋势。步骤为1.创建模型；2.使用模型。

k近邻算法（kNN）

给定测试样本和阈值k（可以使用交叉检验确定），基于某种距离度量（如欧氏距离）找出训练集中于测试样本最靠近的k个训练样本，然后基于这k 个邻居的信息来进行预测：在分类任务中，采用“投票法”，即选择这k个邻居中出现最对的类别作为预测结果；在回归任务中，采用“平均法”，即将k个邻居的实际输出的平均值作为预测结果；还可以基于距离远近进行加权平均或加权投票。

难点：样本的非数值特征如何转化为数值、不同特征对距离度量的影响权值如何确定。
优点：易于理解，易于实现，无需训练（懒惰学习）；精度高，对异常值不敏感。
缺点：计算量大，空间开销大。

四、聚类分析

无监督的分类，是指把一组数据分成不同的簇，每簇中的数据相似而不同簇间的数据距离较远。
原则：最大化类内相似性、最小化类间相似性。

k均值算法（k-means）

是一种简便、使用的无监督聚类分析算法。在已知簇的个数时，可以很好地实现数据的聚类分析。

首先，随机选择K个点作为聚类中心，计算其他样本与各个聚类中心的向量距离，将每个样本都划入与其距离最近的聚类中心对应的簇中。对每一个簇，计算其中所有样本的均值向量，产生K个新的聚类中心。如此反复，不断改变聚类中心的位置，直到聚类中心不再变化或达到迭代上限为止。在这里插入图片描述

五、异常分析

又称为偏差分析或离群点分析。离群点指异常对象，属性是明显偏离期望或常见的属性值。

六、数据挖掘在电子商务中的应用

数据来源

服务器数据（系统日志、访问日志）
在线销售数据（订单、收藏信息）
Web页面数据（浏览次数）
Web页面超链接关系
客户注册信息
……

常用数据挖掘技术

1.路径分析

用于判断在一个Web站点中最频繁访问的路径。
可以用于改进页面及网站结构的设计。

2.关联规则

找到客户对网站上各种文件和资源之间访问的相互联系。
可用于更好的组织站点，实施有效的市场策略。

3.序列模式

找到与时间相关，“一个项跟随另一个项”的内部事务模式。
能够用于预测用户的访问模式，对客户开展有针对性的广告和促销服务。

4.分类

给出识别一个特殊群体的公共属性的描述，可以用来分类（预测）新的项。
可以进行适合某一类客户的商务活动。

5.聚类

从Web访问信息数据中聚集出具有相似特性的客户。
能够便于开发和执行未来的市场战略。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。