【空间模式挖掘】进阶理论

处理分类属性

  • 上一章:假定输入数据由称作项的二元属性组成。
  • 本章:扩展到具有对称二元属性、分类属性、连续属性的数据集。
  • 处理分类属性:通过将其转换成二元项表示,即二元化

处理连续属性

  • 处理连续属性:基于离散化的方法(划分区间)、基于统计学的方法、非离散化方法。
  • 基于统计学的方法:①产生规则(借助均值、中位数、方差等统计量):如{年收入>¥100K,网上购物=是} →年龄:均值=38  ②确认规则:如,为了确定产生的平均年龄是否有统计意义,应当使用统计假设检验方法,进行检验。
  • 非离散化方法:eg 文档-词矩阵

频繁子图挖掘

  •  eg:Web图中,顶点对应于Web页面,边表示Web页面之间的超链接。

  • 频繁子图挖掘:给定图的集合、支持度阈值minsup,频繁子图挖掘的目标是找出所有使得s(g)≥minsup的子图。

  • 开发类(似)Apriori算法→挖掘频繁子图:图表示→事务表示

  • 广义上讲, 知识图谱是一种图数据, 因此可基于已有的频繁子图模式挖掘算法获得知识图谱的模式信息

 非频繁模式

  • 模式挖掘是一个比频繁模式挖掘更一般的术语,因为前者还涵盖了稀有模式和负模式。【非频繁模式:支持度<阈值minsup的项集或规则】
  • 稀有模式:某些非频繁模式也可能暗示数据中出现了有趣的罕见事件或例外情况:eg如果{火灾=yes}频繁,而{火灾=yes,警报=on}非频繁,则可能说明警报系统故障。
  • 负模式:当涉及数据中的负相关时,如大家一般不会同时购买黄油与人造黄油——这种负相关模式有助于识别竞争项,即可以相互替代的项。

零碎知识

  • 序列模式:考虑时间或空间的先后次序

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值