数据聚类算法与指标选择全解析
1. 寻找最优分区相关概念
在进行数据分区时,我们需要先确定一些关键参数。首先,定义 MinPts := ⌊log |A|⌋ ,这里的 ⌊x⌋ 表示向下取整,若 x 是整数, ⌊x⌋ 就等于 x ;若 x 不是整数, ⌊x⌋ 是小于 x 的最大整数。对于集合 A 中的每个点 a ,我们设置 ϵa > 0 为以 a 为中心且包含集合 A 中至少 MinPts 个元素的最小球的半径。所有这样的半径构成集合 E(A) = {ϵa : a ∈ A} 。
我们的目标是确定一个通用半径 ϵ(A) ,使得对于集合 A 中的每个点 a ,以 a 为中心、半径为 ϵ(A) 的球至少包含集合 A 中的 MinPts 个元素。但我们并不要求这个条件对集合 A 中的所有点都成立,即不考虑那些需要极大半径的点。研究表明,选择 E(A) 的 99% 分位数作为 ϵ(A)
超级会员免费看
订阅专栏 解锁全文
1788

被折叠的 条评论
为什么被折叠?



