数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树

数据挖掘:关联规则

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


关联规则

如果相关性很大,那就可以去掉其中一个属性
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

异常检测

在这里插入图片描述

数据挖掘的标准流程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这些不仅是理论,更是实际业务会遇到的东西
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
NLP
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
长尾问题

数据挖掘的经典算法

这些可能会考的
去年就考了聚类哦
在这里插入图片描述

在这里插入图片描述
TP:实际为正,预测为正
FP:实际为负,预测为正
FN:实际为正,预测为负
TN:实际为负,预测为负

准确率acc,是TP和TN的在所有情况中的占比

recall,数据中所有正类中,真正被预测为正类的比例。就是被真的召回的正类比例

precise,在所有被预测为正类中,实际正类的比例【精确是正类的】这俩别混了
在这里插入图片描述
ROC是pr的曲线

在这里插入图片描述
检测出来了,但是你也不能误报
往往希望,recall高一点,而误报也要小

在这里插入图片描述
误报了

误报率是负样本认为正了
在这里插入图片描述

召回是1000个中的5个,好low

训练误差和泛华误差

在这里插入图片描述

分类算法评估指标:hold-out method

train和test,随机分组的交叉验证

k-fold,k组,但是每次k-1个为训练集,而剩下一组为训练集
轮番高k次
k一般是10,叫十指交叉验证
在这里插入图片描述
留一验证
当数据量很小,就留一个样本作为测试集
在这里插入图片描述

分组,组元素个数为1
在这里插入图片描述

聚类方法

在这里插入图片描述
先了解,后面会详细讲解的

看层次
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Nt就是正类
Ntk是确实是真的正类
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

在这里插入图片描述
离差
在这里插入图片描述
Ck中的i与中心u的距离

l簇和u簇的中心距离,越远越好
在这里插入图片描述
C4.5算法

开始具体的算法了


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 数据挖掘导论英文pdf是一本介绍数据挖掘的书籍,内容丰富、深入,是学习数据挖掘的很好的参考书。此书内容主要包括数据挖掘的概述及流程、数据预处理、聚类分析、分类分析、关联分析等方面。 首先,本书对数据挖掘的概念和流程进行了详细介绍,使读者了解数据挖掘的基本概念和流程。同时,作者强调数据预处理在数据挖掘中的重要性,介绍了数据标准化、数据清洗、数据缺失值处理等预处理技术,使读者掌握如何解决数据挖掘中的常见问题。 其次,本书对聚类分析、分类分析、关联分析等数据挖掘技术进行了深入解读,包括聚类算法(如k-means算法、层次聚类算法等)、分类算法(如决策树算法、朴素贝叶斯算法等)、关联规则挖掘等。作者通过详细的案例分析和示例说明,让读者掌握每种算法的原理及应用方法。 最后,本书还介绍了数据挖掘中的一些高级技术,如异常检测、文本挖掘、时间序列分析等领域,为读者提供了更广阔的视野和更多的挖掘思路。 总之,数据挖掘导论英文pdf是一本非常优秀、详实的数据挖掘入门参考书,对于在数据分析、数据挖掘领域有兴趣的学习者来说是一本不可错过的好书。 ### 回答2: 数据挖掘导论英文pdf是一本关于数据挖掘基础和技术的介绍性教材。它包括数据挖掘的概念、应用场景、数据预处理、分类、聚类关联规则等多个方面的内容,从而对读者进行详细的阐述和讲解。 在本书中,读者可以学习到如何处理大量的数据,并从中发现有用的信息。作者还介绍了常用的数据挖掘工具和算法,如决策树、朴素贝叶斯、支持向量机、K-均值算法等,这些工具和算法可以帮助读者更好地进行数据挖掘工作。 此外,该书还介绍了在商业领域中如何应用数据挖掘技术,例如在市场营销、客户关系管理、广告推广等方面的运用。读者可以理解数据挖掘在不同领域的应用,并学习如何将其应用到实际工作中。 总之,数据挖掘导论英文pdf是一本很好的数据挖掘入门教材,对于想要学习数据挖掘的读者来说,是一本非常值得阅读的书籍。 ### 回答3: 数据挖掘导论(An Introduction to Data Mining)是一本由Pang-Ning Tan、Michael Steinbach和Vipin Kumar编写的经典教材,该教材被广泛用于数据挖掘和机器学习领域的教学。 这本书的主要内容涵盖了数据挖掘的基本概念、数据预处理、分类、聚类关联规则挖掘异常检测等主题。此外,该书还提供了大量的案例研究和编程示例,以帮助读者更好地了解和应用数据挖掘技术。 在数据挖掘导论中,读者可以了解到数据挖掘的基本原理和方法,学习如何使用不同的数据挖掘算法(如K-Means聚类,支持向量机等),以及如何评估和优化数据挖掘模型。此外,该书还介绍了一些重要的数据挖掘工具和平台,如Weka、R、Python和MATLAB等。 总之,数据挖掘导论是一本非常优秀的教材,对于想要入门数据挖掘和机器学习领域的人来说是一本必读的书籍。它既适合学术界的研究人员和学生,又适合企业界的数据分析师和数据科学家。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冰露可乐

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值