Clustering with Tangles: Algorithmic Framework and Theoretical Guarantees
简介:
使用“纠缠”的概念,纠缠是数学图论用于证明著名的图小定理,文中提到将“纠缠”用于机器学习中,纠缠将一组切割聚合到密集结构方向上的点,集群由一组一致的指针软表征。提出的输出是分层的,诱导了软树状图的概念。
非常通用且高度灵活,不是为单个对象分配集群成员,而是通过一组指针间接描述集群。这种灵活的表示减轻了处理摸棱两可的情况,输入是数据集的切割集合。聚合“弱”切割得到数据集群结构的“强”视图,这个方法在预处理阶段构建切割,速度很快适用于大规模数据集。
贡献:
1、将纠缠的抽象概念从数学理论应用到机器学习中,开发出高度灵活的聚类框架。
2、证明方法的灵活性,在三个不同场景中提供案例研究,问卷场景、图聚类场景和基于特征的场景。
3、在三种场景中提供理论保证,问卷统计模型发现事实,证明随机块模型与图聚类场景相同,基于特征聚类具有可解释性。
4、实现算法的核心部分、预处理和后处理的不同选项。
缠结算法的框架:
找到原始切割集、定向切割以识别缠结和后处理缠结进行聚类。
构建原始切割集:
1、问卷形式:是或否的天然选择。
2、KL算法构建初始切割和欧几里得空间中的聚类。
定义切割的损失函数(相似性之和): c ( A , A C ) = ∑ s i m ( v , w ) c({A,A^C}) = \sum{sim(v,w)}