6.相似性,近邻,和聚类
基本概念:计算用数据描述的相似性; 用相似性预测;作为基于相似性分割的聚类
基本技巧:找到相似条目;最近邻方法;聚类理论;计算相似性的距离矩阵
相似性和距离
最近邻推理
例子:威士忌分析
最近邻预测模型
多少近邻和多大影响
几何解释,过拟合,和复杂度控制
最近邻理论的问题
关于相似性和近邻一些重要的技术细节
异质属性
*其他距离函数
*组合函数:从近邻计算分数
聚类
例子:重访威士忌分析
分层聚类
重访最近邻:围绕质心的聚类
例子:聚类商务新闻故事
理解聚类结果
*用监督学习生成聚类描述
退后一步:解决商务问题VS数据探索
总结
第六章 相似性,近邻和聚类
这一章讲了很多相似性的实际应用案例,也是我学习商业问题数据分析思路的好材料。
选择距离最近的几个样本点,综合它们的结果(用1/距离**2作为权重,它趋近于更小,甚至0),决定预测点的目标值。
权重计分减少了决定要用几个最近邻的重要性。因为加上了与距离平方呈倒数的权重,那些距离远的样本点的权重会大大降低,也就不用考虑太多。有些方法甚至k=n(全部样本数),因为它们使用权重来减少远距离点的影响。
几何解释,过拟合和复杂度控制
可视化模型很有教益,对于很多模型甚至不止本领域,可视化都有用。
KNN模型边界没有规律,反复无常,而且k越小,越厉害,对变化越敏感。k=1,模型最复杂。