![](https://img-blog.csdnimg.cn/20190927151043371.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
聚类基础知识
主要讲解聚类中必备的基础知识
老实人小李
这个作者很懒,什么都没留下…
展开
-
极大似然概念及举例
1 极大似然1.1 问题描述假设我们需要调查我们学校学生的身高分布。我们先假设学校所有学生的身高服从正态分布 N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)。(注意:极大似然估计的前提一定是要假设数据总体的分布,如果不知道数据分布,是无法使用极大似然估计的),这个分布的均值 μ\muμ 和方差 σ2\sigma^2σ2 未知,如果我们估计出这两个参数,那我们就得到了最终的结果。那么怎样估计这两个参数呢?学校的学生这么多,我们不可能挨个统计吧?这时候我们需要用到概率统计的思想,也就是抽样,根原创 2020-09-18 16:14:19 · 3101 阅读 · 0 评论 -
散布矩阵(Scatter Matrix)及其与协方差矩阵(The Covariance Matrix)的关系
在多元统计和概率论中,散点矩阵是一种统计量,用来估计协方差矩阵,例如多元正态分布。In multivariate statistics and probability theory, the scatter matrix is a statistic that is used to make estimates of the covariance matrix, for instance of the multivariate normal distribution.定义(Definition)G原创 2020-09-17 22:37:49 · 1380 阅读 · 0 评论 -
协方差和协方差矩阵的定义和理解
先复习一下这个:均值、标准差、方差为什么需要协方差?上面几个统计量看似已经描述的差不多了,但我们应该注意到,标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:var(X)=∑i=1n(Xi−X‾)(Xi−X‾)n−1var(X)=\frac{\sum_{i=1}^n(X_i-\overl原创 2020-09-17 17:59:34 · 1548 阅读 · 0 评论 -
样本方差为何除以n-1?——无偏估计、均值、方差、标准差
均值X‾=∑i=1nXin\overline X=\frac{\sum_{i=1}^{n}X_i}{n}X=n∑i=1nXi标准差s=∑i=1n(Xi−X‾)2n−1s=\sqrt{\frac{\sum_{i=1}^{n}(X_i-\overline X)^2}{n-1}}s=n−1∑i=1n(Xi−X)2方差s=∑i=1n(Xi−X‾)2n−1s=\frac{\sum_{i=1}^{n}(X_i-\overline X)^2}{n-1}s=n−1∑i=1n(Xi−X)2为什原创 2020-09-17 16:19:59 · 6457 阅读 · 2 评论 -
二进制特征的相似性和非相似性度量(the Similarity Measure and Dissimilarity Measure for Binary Features)
假设我们使用两个二进制下标来计算两个对象的特征。n00n_{00}n00和n11n_{11}n11分别代表两个对象特征同时不存在和存在,n01n_{01}n01和n10n_{10}n10代表对象特征只存在在一个对象。对于两个数据点xix_{i}xi和xjx_{j}xj两种常见类型的相似性度量如下Sij=n11+n00n11+n00+w(n10+n01)S_{ij}=\frac{n_{11}+n_{00}}{n_{11}+n_{00}+w(n_{10}+n_{01})}Sij=n11+n原创 2020-09-15 17:04:38 · 1140 阅读 · 0 评论 -
连续特征的距离和相似性度量(Distance and Similarity Measures for Continuous Features)总结
本文主要介绍在clustering中常用的距离(Distance)和相似度(Similarity),包括闵可夫斯基距离(明式距离)(Minkowski Distance)、欧几里得距离(欧氏距离)(Euclidean Distance)、City-Block距离(City-Block Distance)、Sup距离(Sup Distance)、马氏距离(Mahanlanobis Distance)、皮尔逊相关(Pearson Correlation)、点对称距离(Point Symmetry Distanc原创 2020-09-15 10:34:31 · 726 阅读 · 0 评论