十一DM
TriAzure
靡不有初,鲜克有终。
展开
-
聚类算法综述
聚类是数据挖掘中,用于发现数据分布和隐含模式的一项重要技术。数据挖掘中现有的聚类算法,根据其基本思想可以分为五类:层次聚类算法(又分为聚合聚类,分解聚类)分割聚类算法(又分为基于密度的聚类、基于网格的聚类、基于图论的聚类、基于平方误差的迭代重分配聚类)基于约束的聚类算法机器学习中的聚类算法(人工神经网络方法、基于进化理论的方法:如模拟退火、遗传算法)用于高维数据的聚类算法(分为子空间...原创 2019-09-19 22:24:33 · 341 阅读 · 0 评论 -
Python实现NMF(非负矩阵分解)
出现背景数据分布不均,维度大(导致计算效率低下)难以解释负值的实际意义(e.g.图像数据中不可能有负值的像素点)分解方法将一个非负矩阵分解为两个非负矩阵的乘积。倍增更新规则(2001):在欧氏距离下,随机初始化,然后不断迭代,直到W(系数矩阵) H(基矩阵)稳定:NMP求得的是局部最优解local optima(对应global optima问题),对于局部最优算法,一般考虑以...原创 2019-10-03 21:01:25 · 6691 阅读 · 0 评论 -
聚类分析 | K-Means, DBSCAN在python中的使用
今天主要实现的是dbscan,总结一下dbscan算法的思路,防止以后遗忘:调用dbscan时,指定半径、最小密度。在dbscan中,通过clusterId记录联通分支(类)的数量,遍历N个点,对每个点进行判断,如果已有标记(被捕获到某一联通分支),跳过;如无,进行簇(联通分支)分类。在簇分类前,先进行密度检测,求出N个点中距离当前点距离小于指定半径点点,压入seeds列表,返回簇分类。在...原创 2019-10-04 20:21:02 · 735 阅读 · 0 评论