自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 【1分钟搞懂】线性分类中的“最大化间隔”Linear Classification: Maximizing the Margin

总的来说,“最大化间隔”是一种直观且有效的线性分类方法。

2023-10-17 13:40:17 103

原创 【数据挖掘】第四章 分类与预测 4.7 分类与预测算法的性能评价方法

1。

2023-10-06 01:04:13 71 1

原创 【数据挖掘】第四章 分类与预测 4.6 KNN分类算法

Knn 算法的思路类似于近朱者赤,近墨者黑的思想,其最大的不足就是分类的速度比较慢。简单地说,有那么一堆你已经知道分类的数据,然后当一个新数据进入的时候,就开始跟训练数据中的每一个点求距离,然后挑出离这个数据最近的 k 个点,看看这 k 个点属于什么类型,然后用少数服从多数的原则给新数据归类。Kiin 根据距离函数计算带分类样本 x 与每个训练样本的距离,以这个距离作为相似性,选择与钙分类样本距离最小的 k 个样本作为 x 的 k 近邻,最后以 x 的 k 近邻中的大多数所属的类别作为 x 的类别。

2023-10-05 19:30:53 102

原创 【数据挖掘】第四章 分类与预测 4.5 决策树方法的分析比较

另外,cat 数是一个二叉树,因此属性划分采用的是二路划分技术,由此id3和 c 4.5可能会产生多路划分,而 cat 只可能是二路划分,在处理能力上,id3算法只能处理离散型变量,而 c 4.5和 k 的算法可以处理连续性变量,在处理目标上,id3和 c 4.5只能进行分类,而 cat 不仅可以进行分类,以后还可以用于回归任务。在之前的id3决策树分类算法讲解的时候,我们已经详细地讲解过,其主要原则就是商事信息系统有序化的一种度量,商越大,系统越混乱,商为零的时候,系统是有序的,即数据分布是同质性的。

2023-10-05 19:27:49 72

原创 【数据挖掘】第四章 分类与预测 4.4 朴素贝叶斯分类方法

第一步,对样本进行形式化,确认特征属性,第二步,确定样本的类别标签集合,第三步,分别计算在每个类别标签下样本 x 的条件概率,第四步,通过条件独立计算 x 属于每个类别的概率,其中概率最大的就是 x 的分类属性。紧接着,执行算法的第三步和第四步,根据条件独立性,y1下 x 发生的概率和y2项 x 的发生概率分别就对应四个分支的数值乘积,最后再计算py1条件下 x 的条件概率乘以py1和y2条件下 x 的条件概率乘以py2比较,发现py1条件下 x 乘以py1最大,因此可以预测样本 x 属于y1类。

2023-10-05 19:19:59 167

原创 【数据挖掘】第四章 分类与预测 4.3决策树分类方法

一般而言,在数据挖掘学科中,我们可以将分类与预测方法分为以下几种,一,基于决策树的方法,二,基于规则的方法,三,基于记忆的方法,四,基于人工神经网络方法,五,朴素贝叶斯以及贝叶斯信念网络方法,六,支持向量机方法。一个典型的分类与预测任务实现框架的思路如下,针对一个训练样本集合,采用归纳学习的方法,利用某种类型的学习算法构建学习模型,进而对模型的性能进行评估,如果评估结果可以接受,就可以将建立的模型应用在测试样本上,进行模型的应用,从而实现对应的分类与预测任务。训练集中的目标是人为标注的。

2023-10-05 18:20:30 54

原创 【数据挖掘】第四章 分类与预测 4.1-4.2数据的分类与预测方法

自动填充的时候,可以填充为系统设置的全局变量,或者用数据在该数据上的取值均值来替代,还可以使用同一句类组别中的值,或者是采用推理办法推测出来的可能值去替代。如果需要划分为三个相等宽划分的宽度应该是34-4÷3,即等于十,因此第一个箱子是四,八,九,第二个箱子是15,21,21,21,24,第三个箱子是25,26,28,29和34。三,属性值存在微智特性,比如前面写年龄是42岁,但是后面的出生年月相矛盾,或者是多数据源进行融合的时候,以前的等级是一,二,三,而现在的数据等级划分为 abc。

2023-10-05 18:17:44 332

原创 【数据挖掘】第二章 数据 2.4 数据相似性度量

我们使用二进制数据的列联表进行表达,数据对象 i 作为行有零,一两个属性,数据对象 j 作为列,同样也有零,一两个属性值,其中的 q 表示在对象 i 中取值为一,在对象界中也取之为一的频次。同理,r 表示在对象 i 中取值为一,在对象界中取值为零的频次,s 表示在对象中取值为零,在对象界中取值为一的频次,t 表示在对象 i 中取值为零,在对象界中也取之为零的频次。镇定性及距离都是大于等于零的对象 i 和 j 的距离等于 g 和 i 的距离,i 和 j 的距离小于等于通过第三个对象形成的距离之和。

2023-10-05 16:48:54 227

原创 【数据挖掘】第二章 数据 2.3数据可视化

如果 x 轴是一种对比数据对比数据的分位数,而 y 轴表示分析样本的实际分位数,则可以观察要分析的样本与要对比的样本分布是否存在偏差,比如课件上的这个 qq 图,x 轴表示分店一的物品单价分位数,而 y 轴表示分店二的物品单价分位数,斜率为一的直线作为参考线,可以看出分店一的物品单价倾向于低于分店二的。第四个案例,我们针对数据的正态性检验进行分析,如课件图形所示,给定一组数据样本,分别采用带正态曲线的直方图方法,qq 图方法,ks 检验方法以及计算偏度和风度的方法,分析该数据是否符合正态分布特性。

2023-10-05 16:42:59 92

原创 【数据挖掘】第二章 数据 2.2数据的统计描述

还可以借助一些更高级的方法,比如尾数折叠技术,在数据仓库中,当时间跨不少于七天,用日期来分析,如果时间跨度大于七天,则使用周数来进行分析,以此类推,即可以实现日期折叠为周,周折叠为月,月折叠为季度,季度折叠为年等等中心趋势度量的统计计算方法在这里就不过多展开了,大家可以仔细看一下课件上的公式,特别是基于分组数据的中位数差值计算方法。类似的,m 减去两倍的 c 格玛和 m 加上两倍的 c 格玛区间中包含了约95%的数据,而 m 减三倍的西格玛和 m 加上三倍的西格玛区间,包含了约99.7%的数据。

2023-10-05 15:56:30 97

原创 【数据挖掘】第二章 数据 2.1 数据对象和数据属性

下面来介绍数据属性的几个重要特征。假设对于学生的四种特长钢琴,绘画,舞蹈,篮球进行编码,可以由如下表示,钢琴映射成1000,绘画映射成0100,舞蹈映射成0010,篮球映射成0001这里可以很明显地看出,每个类别都只有一个一,其余全是零,one hot 编码在 python 中 l 里面有相应的函数,可以调用函数为 one hot in c ,我们来看课件上的这个代码段 x 等于002,一,23110001是输入的训练数据,通过调用网站的测试数据为 xt 102,那么得到的输入结果为011000010,

2023-10-05 15:41:52 226

原创 【数据挖掘】第一章 绪论 1.5节数据挖掘中的隐私保护

除了以上三类数据隐私直接和数据源发生关联之外,数据隐私还可能与用户数据的使用方法产生联系,比如过度采集个人数据,超常使用个人数据,非法公开个人数据的这些情况我们一般都会遇到,比如安装了一款新的 app 的时候,一般都会要求我们同意其使用我们的相机,使用通讯录等等,如果过度使用我们的手机信息,此时就有可能侵犯我们的隐私了。由于数据挖掘的对象是数据,要想发掘到正确的知识和模式,那就要求数据的真实性,因此,在数据挖掘过程中,可能会由于对数据保护不够,导致引起侵犯他人隐私的问题。

2023-10-05 15:29:00 112

原创 【数据挖掘】第一章 绪论 1.3-1.4 开放数据获取来源-数据挖掘常见误区

以后在学习数据挖掘算法的时候,大家会发现,针对同一种分析目标,我们可能会有好几种方法,比如要做分类与预测,可以使用id3 c 4.5,随机森林,逻辑回归,贝叶斯分类,神经网络等。在诸多算法的选择中,如果最后得到的优化值类似,那么选择越简单的方法越好,这就是数据挖掘领域有名的奥卡姆剃刀原则,数据挖掘与机器学习相关程度很高,我曾经在网络上看到,有的网络博主把机器学习的调仓过程比喻成道士炼丹,就是把所有的材料都放进去炼丹炉了,但是不到开炉的时候,他们都不知道炼出来的是仙丹还是毒药。

2023-10-05 15:26:12 48

原创 【数据挖掘】第一章 绪论 1.2节十大经典挖掘算法

除此之外,日常生活中与人们生活密不可分的其他案例还有很多,比如垃圾邮件的分类算法,医学影像专业上的肿瘤分类问题,这两个也是经典的有监督学习案例,隶属于分类与预测算法,还有在电子购物中电商的协同过滤推荐算法,猜测你可能喜欢的商品,进行交叉销售,提升销售等等,在社交网络中,比如我们利用 qq 添加一个好友,软件还会推送一些朋友你可能认识,或者你和你的新好友有哪一些共同的朋友等等,这里给大家普及一个小知识。在强化学习中,交互问题却不存在这样一个朴实心,正确的标签,只能提,只能从自身的经验去学习。

2023-10-05 15:02:02 52

原创 【数据挖掘】第一章 绪论 1.1节数据挖掘的概念和任务

首先,来源最多的数据还是来自传统的关系数据库,数据库中的数据特点主要包括数据的动态性,不完全性,异构性,冗余性等特征,还可能包含一些噪音数据,因此对于这些类型的数据进行分析时,往往需要先进行数据的预处理操作。由此可见,数据挖掘发现的知识类型一般是从三个维度来进行评价,即什么样的模式是用户感兴趣的,挖掘系统能不能产生有价值的模式,挖掘到的模式是不是都是有价值的知识,大家在以后的应用过程中,不妨以这样三个维度来评价自己所提出的数据挖掘算法。好的,这节课的内容我们就讲到这里,同学们,下节课再见。

2023-10-05 11:06:31 342 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除