《商务数据分析》读书笔记（六）

最新推荐文章于 2023-02-21 22:48:43 发布

棒子皮蹦蹦床

最新推荐文章于 2023-02-21 22:48:43 发布

阅读量1.3k

点赞数

分类专栏：读书笔记文章标签：相似性 KNN 聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zs15321583801/article/details/86008559

版权

本文是《商务数据分析》读书笔记，重点介绍了KNN算法和聚类方法在商务领域的应用。讨论了相似性计算、最近邻推理、KNN模型的复杂度控制、解释性以及聚类技术，包括分层聚类和k均值聚类。强调了特征选择、计算效率和业务理解在数据分析中的重要性，并通过案例展示了如何利用聚类改善决策。

摘要由CSDN通过智能技术生成

6.相似性，近邻，和聚类

基本概念：计算用数据描述的相似性；用相似性预测；作为基于相似性分割的聚类

基本技巧：找到相似条目；最近邻方法；聚类理论；计算相似性的距离矩阵

相似性和距离

最近邻推理

例子：威士忌分析

最近邻预测模型

多少近邻和多大影响

几何解释，过拟合，和复杂度控制

最近邻理论的问题

关于相似性和近邻一些重要的技术细节

异质属性

*其他距离函数

*组合函数：从近邻计算分数

聚类

例子：重访威士忌分析

分层聚类

重访最近邻：围绕质心的聚类

例子：聚类商务新闻故事

理解聚类结果

*用监督学习生成聚类描述

退后一步：解决商务问题VS数据探索

总结

第六章相似性，近邻和聚类

这一章讲了很多相似性的实际应用案例，也是我学习商业问题数据分析思路的好材料。

选择距离最近的几个样本点，综合它们的结果（用1/距离**2作为权重，它趋近于更小，甚至0)，决定预测点的目标值。

权重计分减少了决定要用几个最近邻的重要性。因为加上了与距离平方呈倒数的权重，那些距离远的样本点的权重会大大降低，也就不用考虑太多。有些方法甚至k=n（全部样本数），因为它们使用权重来减少远距离点的影响。

几何解释，过拟合和复杂度控制

可视化模型很有教益，对于很多模型甚至不止本领域，可视化都有用。

KNN模型边界没有规律，反复无常，而且k越小，越厉害，对变化越敏感。k=1，模型最复杂。

最低0.47元/天解锁文章

棒子皮蹦蹦床

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
《商务数据分析》读书笔记（六）

6.相似性，近邻，和聚类基本概念：计算用数据描述的相似性；用相似性预测；作为基于相似性分割的聚类基本技巧：找到相似条目；最近邻方法；聚类理论；计算相似性的距离矩阵相似性和距离最近邻推理例子：威士忌分析最近邻预测模型多少近邻和多大影响几何解释，过拟合，和复杂度控制最近邻理论的问题关于相似性和近邻一些重要的技术细节异质属性*其他距离函数*组合函数：...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。