电子商务应用课程知识整理 第六章-数据挖掘

一、概述

数据挖掘(Data Mining):从大量数据中寻找其规律的技术,是统计学、数据库和人工智能等技术的综合,是从大量不完全有噪声模糊随机的实际应用数据中,提取隐含在其中事先不知道、但有潜在的有用信息和知识的过程。

数据挖掘的四大核心任务:关联分析、分类与预测、聚类分析、异常检测

二、关联分析

关联:某种事物发生时其他事物也会发生。

关联规则的表示形式
R:X→Y,其中,X和Y是两个不相交的项集,即X,Y⊂I 且X∩Y=Φ
X称为规则的前提或前项,Y称为结果或后项

概念:
  • 交易(事务):每一条购买记录成为一个交易。
  • 项集:包含一个或多个项的集合。
  • 支持数(σ):一个项集在所有交易中出现的次数。
  • 支持度(s):s(X→Y)= 同时包含X和Y的交易数 / 总交易数
  • 置信度(c):c(X→Y)= 同时包含X和Y的交易数 / 以X作为前项的交易数
关联分析步骤:
  1. 设定最小支持度minsup和最小置信度minconf
  2. 找出(s ≥ minsup)∧(c ≥ minconf)的项集作为频繁项集
  3. 由频繁项集产生强关联规则
用于寻找频繁项集的算法
算法一:蛮力法

当有d个项时,将产生 2 d 2^d 2d个候选项集,产生的关联规则总个数有 3 d − 2 d + 1 3^d-2^d+1 3d2d+1

算法二:Apriopri算法(先验算法)

算法基于的先验知识:频繁项集的子集也一定是频繁的。例如:如果{A,B}是频繁项集,则{A}和{B}也一定是频繁项集。

对于k各项,从1到k,递归地查找频繁项集。
在这里插入图片描述

三、分类与预测

分类:用于预测离散的目标变量,预测类别未知的数据项的类别。
预测:用于预测连续的目标变量,主要方法时回归。

分类的目的时获取分类函数或分类模型(分类器),该模型能把数据项映射到一个指定类别。
分类可用于提取描述重要数据类的模型或预测未来的数据趋势。步骤为1.创建模型;2.使用模型。

k近邻算法(kNN)

给定测试样本和阈值k(可以使用交叉检验确定),基于某种距离度量(如欧氏距离)找出训练集中于测试样本最靠近的k个训练样本,然后基于这k 个邻居的信息来进行预测:在分类任务中,采用“投票法”,即选择这k个邻居中出现最对的类别作为预测结果;在回归任务中,采用“平均法”,即将k个邻居的实际输出的平均值作为预测结果;还可以基于距离远近进行加权平均或加权投票。

难点:样本的非数值特征如何转化为数值、不同特征对距离度量的影响权值如何确定。
优点:易于理解,易于实现,无需训练(懒惰学习);精度高,对异常值不敏感。
缺点:计算量大,空间开销大。

四、聚类分析

无监督的分类,是指把一组数据分成不同的,每簇中的数据相似而不同簇间的数据距离较远。
原则:最大化类内相似性、最小化类间相似性。

k均值算法(k-means)

是一种简便、使用的无监督聚类分析算法。在已知簇的个数时,可以很好地实现数据的聚类分析。

首先,随机选择K个点作为聚类中心,计算其他样本与各个聚类中心的向量距离,将每个样本都划入与其距离最近的聚类中心对应的簇中。对每一个簇,计算其中所有样本的均值向量,产生K个新的聚类中心。如此反复,不断改变聚类中心的位置,直到聚类中心不再变化或达到迭代上限为止。在这里插入图片描述

五、异常分析

又称为偏差分析或离群点分析。离群点指异常对象,属性是明显偏离期望或常见的属性值。

六、数据挖掘在电子商务中的应用

数据来源

  • 服务器数据(系统日志、访问日志)
  • 在线销售数据(订单、收藏信息)
  • Web页面数据(浏览次数)
  • Web页面超链接关系
  • 客户注册信息
  • ……

常用数据挖掘技术

1.路径分析

用于判断在一个Web站点中最频繁访问的路径。
可以用于改进页面及网站结构的设计。

2.关联规则

找到客户对网站上各种文件和资源之间访问的相互联系。
可用于更好的组织站点,实施有效的市场策略。

3.序列模式

找到与时间相关,“一个项跟随另一个项”的内部事务模式。
能够用于预测用户的访问模式,对客户开展有针对性的广告和促销服务。

4.分类

给出识别一个特殊群体的公共属性的描述,可以用来分类(预测)新的项。
可以进行适合某一类客户的商务活动。

5.聚类

从Web访问信息数据中聚集出具有相似特性的客户。
能够便于开发和执行未来的市场战略。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《统计学习基础-数据挖掘、推理与预测》是一本介绍统计学习基础理论和方法的书籍。统计学习是指通过数据来进行模式识别和预测的一种方法,而数据挖掘则是在大量数据中发现有价值的模式和关系。这本书主要介绍了统计学习的基本原理、算法和应用。 首先,这本书介绍了统计学习的基本原理。这包括了概率论、统计学、线性代数等基础数学知识,以及最大似然估计、贝叶斯估计等统计学习的核心思想。通过学习这些基础理论,读者可以对统计学习有更深入的理解。 其次,这本书详细介绍了数据挖掘的方法和技术。数据挖掘是一种通过自动或半自动的方式从大量数据中发现模式和关系的过程。这个过程包括数据的预处理、特征选择、模型构建、模型评估等步骤。读者可以学习到各种数据挖掘的方法和算法,例如分类、回归、聚类、关联规则等。 最后,这本书还介绍了统计学习在实际问题中的应用。统计学习可以应用于各种领域,例如金融、医疗、互联网等。通过实例分析,读者可以了解统计学习如何解决实际问题,并得到实际应用的经验。 总体而言,这本书是一本介绍统计学习基础的权威教材。通过学习这本书,读者可以掌握统计学习的基本原理和方法,了解数据挖掘的技术和应用,并应用于实际问题中。这本书对于统计学习领域的初学者和从业人员都有很大的帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值