学习笔记(70):第二章:海量数据的处理与挖掘-关联规则挖掘01

立即学习:https://edu.csdn.net/course/play/26303/334278?utm_source=blogtoedu

1. 数据挖掘是一项从大量的记录数据中提取有价值、人们感兴趣的只是,这些只是是隐含的、事先未知的有用信息,提取的知识一般可表示为概念(concepts)、规则(rules)、规律(regular ides)、模式(patterns)等形式

其中:

规则:海量数据中样本与样本之间的关联性

模式:通过特征X,经过函数f得到结构y

2. 关联规则:发现数据中的规律

* 超市中什么产品回忆起购买(组合推荐)

* 顾客在买了一台PC之后下一步会购买(搭配推荐)

* 哪种DNA对这种药物敏感(统计学运用)

3. 关联规则基本概念

* 每一个数据样本称为项目

* 例如一个顾客购买商品的购物车称为项目的组合即事务

* 事务中有意义的项目集合叫做项集,比如面包和牛奶,这就是二项集,我们要挖掘的就是项集

* 1000个人购物,1000个购物单,牛奶在购物单中出现的次数叫支持度

* 当支持度高到一定程度,才会观测出有意义的信息和规则,设定一个阈值

* 项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或频集)

4. 事务数据库中X和Y同时存在的百分比s%称为支持度;信任度表示出现X的基础上再出现Y的概率,即条件概率

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值