《商务数据分析》读书笔记(六)

本文是《商务数据分析》读书笔记,重点介绍了KNN算法和聚类方法在商务领域的应用。讨论了相似性计算、最近邻推理、KNN模型的复杂度控制、解释性以及聚类技术,包括分层聚类和k均值聚类。强调了特征选择、计算效率和业务理解在数据分析中的重要性,并通过案例展示了如何利用聚类改善决策。
摘要由CSDN通过智能技术生成

6.相似性,近邻,和聚类

基本概念:计算用数据描述的相似性; 用相似性预测;作为基于相似性分割的聚类

基本技巧:找到相似条目;最近邻方法;聚类理论;计算相似性的距离矩阵

相似性和距离

最近邻推理

例子:威士忌分析

最近邻预测模型

多少近邻和多大影响

几何解释,过拟合,和复杂度控制

最近邻理论的问题

关于相似性和近邻一些重要的技术细节

异质属性

*其他距离函数

*组合函数:从近邻计算分数

聚类

例子:重访威士忌分析

分层聚类

重访最近邻:围绕质心的聚类

例子:聚类商务新闻故事

理解聚类结果

*用监督学习生成聚类描述

退后一步:解决商务问题VS数据探索

总结

 

第六章 相似性,近邻和聚类

 

这一章讲了很多相似性的实际应用案例,也是我学习商业问题数据分析思路的好材料。

 

选择距离最近的几个样本点,综合它们的结果(用1/距离**2作为权重,它趋近于更小,甚至0),决定预测点的目标值。

权重计分减少了决定要用几个最近邻的重要性。因为加上了与距离平方呈倒数的权重,那些距离远的样本点的权重会大大降低,也就不用考虑太多。有些方法甚至k=n(全部样本数),因为它们使用权重来减少远距离点的影响。

 

 

几何解释,过拟合和复杂度控制

可视化模型很有教益,对于很多模型甚至不止本领域,可视化都有用。

KNN模型边界没有规律,反复无常,而且k越小,越厉害,对变化越敏感。k=1,模型最复杂。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值