第三课 week1
1.1 无监督学习
2.1 聚类算法
2.2 K-means聚类算法
K-means重复做两件事,第一个是遍历所有的点并将点分配给距离最近的簇质心(cluster centroids),第二个是重新计算均值找出新的质心并移动簇质心。
1)过程示意
2)算法
如果出现下面的现象,最常见的办法是消除集群,即k=k-1,或者重新初始化该集群的质心。
2.3 优化目标
失真(成本)函数 Distortion
2.4 初始化K-means
随即从示例中选取K个作为初始化的质心,这与初始化为随机的点的方法不同。
2.5 选择聚类数量
根据实际问题去权衡。
3.1 发现异常事件
异常检测算法会查看未标记的正常事件数据集,从而学会在检测到了异常事件时发出信号。
1)示例:飞机发动机检测
2)密度估计技术
为
x
x
x 的概率建立模型。学习算法尝试找出具有高概率的特征
x
1
x_1
x1、
x
2
x_2
x2 的值是什么,以及在数据集中出现的可能性较小或概率较低的值是什么。
3.2 高斯正态分布
3.3 异常检测算法
不受特征之间的独立性的影响。
3.4 开发与评估异常检测系统
由于数据量少,不使用测试集,但修改参数后无法合理的评估,且调整 ε ε ε 的过程容易导致过拟合。
3.5 异常检测与监督学习对比
3.6 选择使用什么特征