人工智能lab-CSDN博客

原创【1分钟搞懂】线性分类中的“最大化间隔”Linear Classification: Maximizing the Margin

总的来说，“最大化间隔”是一种直观且有效的线性分类方法。

2023-10-17 13:40:17 131

原创【数据挖掘】第四章分类与预测 4.7 分类与预测算法的性能评价方法

1。

2023-10-06 01:04:13 87 1

原创【数据挖掘】第四章分类与预测 4.6 KNN分类算法

Knn 算法的思路类似于近朱者赤，近墨者黑的思想，其最大的不足就是分类的速度比较慢。简单地说，有那么一堆你已经知道分类的数据，然后当一个新数据进入的时候，就开始跟训练数据中的每一个点求距离，然后挑出离这个数据最近的 k 个点，看看这 k 个点属于什么类型，然后用少数服从多数的原则给新数据归类。Kiin 根据距离函数计算带分类样本 x 与每个训练样本的距离，以这个距离作为相似性，选择与钙分类样本距离最小的 k 个样本作为 x 的 k 近邻，最后以 x 的 k 近邻中的大多数所属的类别作为 x 的类别。

2023-10-05 19:30:53 119

原创【数据挖掘】第四章分类与预测 4.5 决策树方法的分析比较

另外，cat 数是一个二叉树，因此属性划分采用的是二路划分技术，由此id3和 c 4.5可能会产生多路划分，而 cat 只可能是二路划分，在处理能力上，id3算法只能处理离散型变量，而 c 4.5和 k 的算法可以处理连续性变量，在处理目标上，id3和 c 4.5只能进行分类，而 cat 不仅可以进行分类，以后还可以用于回归任务。在之前的id3决策树分类算法讲解的时候，我们已经详细地讲解过，其主要原则就是商事信息系统有序化的一种度量，商越大，系统越混乱，商为零的时候，系统是有序的，即数据分布是同质性的。

2023-10-05 19:27:49 99

原创【数据挖掘】第四章分类与预测 4.4 朴素贝叶斯分类方法

第一步，对样本进行形式化，确认特征属性，第二步，确定样本的类别标签集合，第三步，分别计算在每个类别标签下样本 x 的条件概率，第四步，通过条件独立计算 x 属于每个类别的概率，其中概率最大的就是 x 的分类属性。紧接着，执行算法的第三步和第四步，根据条件独立性，y1下 x 发生的概率和y2项 x 的发生概率分别就对应四个分支的数值乘积，最后再计算py1条件下 x 的条件概率乘以py1和y2条件下 x 的条件概率乘以py2比较，发现py1条件下 x 乘以py1最大，因此可以预测样本 x 属于y1类。

2023-10-05 19:19:59 186

原创【数据挖掘】第四章分类与预测 4.3决策树分类方法

一般而言，在数据挖掘学科中，我们可以将分类与预测方法分为以下几种，一，基于决策树的方法，二，基于规则的方法，三，基于记忆的方法，四，基于人工神经网络方法，五，朴素贝叶斯以及贝叶斯信念网络方法，六，支持向量机方法。一个典型的分类与预测任务实现框架的思路如下，针对一个训练样本集合，采用归纳学习的方法，利用某种类型的学习算法构建学习模型，进而对模型的性能进行评估，如果评估结果可以接受，就可以将建立的模型应用在测试样本上，进行模型的应用，从而实现对应的分类与预测任务。训练集中的目标是人为标注的。

2023-10-05 18:20:30 87

原创【数据挖掘】第四章分类与预测 4.1-4.2数据的分类与预测方法

自动填充的时候，可以填充为系统设置的全局变量，或者用数据在该数据上的取值均值来替代，还可以使用同一句类组别中的值，或者是采用推理办法推测出来的可能值去替代。如果需要划分为三个相等宽划分的宽度应该是34-4÷3，即等于十，因此第一个箱子是四，八，九，第二个箱子是15，21，21，21，24，第三个箱子是25，26，28，29和34。三，属性值存在微智特性，比如前面写年龄是42岁，但是后面的出生年月相矛盾，或者是多数据源进行融合的时候，以前的等级是一，二，三，而现在的数据等级划分为 abc。

2023-10-05 18:17:44 362

原创【数据挖掘】第二章数据 2.4 数据相似性度量

我们使用二进制数据的列联表进行表达，数据对象 i 作为行有零，一两个属性，数据对象 j 作为列，同样也有零，一两个属性值，其中的 q 表示在对象 i 中取值为一，在对象界中也取之为一的频次。同理，r 表示在对象 i 中取值为一，在对象界中取值为零的频次，s 表示在对象中取值为零，在对象界中取值为一的频次，t 表示在对象 i 中取值为零，在对象界中也取之为零的频次。镇定性及距离都是大于等于零的对象 i 和 j 的距离等于 g 和 i 的距离，i 和 j 的距离小于等于通过第三个对象形成的距离之和。

2023-10-05 16:48:54 280

原创【数据挖掘】第二章数据 2.3数据可视化

如果 x 轴是一种对比数据对比数据的分位数，而 y 轴表示分析样本的实际分位数，则可以观察要分析的样本与要对比的样本分布是否存在偏差，比如课件上的这个 qq 图，x 轴表示分店一的物品单价分位数，而 y 轴表示分店二的物品单价分位数，斜率为一的直线作为参考线，可以看出分店一的物品单价倾向于低于分店二的。第四个案例，我们针对数据的正态性检验进行分析，如课件图形所示，给定一组数据样本，分别采用带正态曲线的直方图方法，qq 图方法，ks 检验方法以及计算偏度和风度的方法，分析该数据是否符合正态分布特性。

2023-10-05 16:42:59 111

原创【数据挖掘】第二章数据 2.2数据的统计描述

还可以借助一些更高级的方法，比如尾数折叠技术，在数据仓库中，当时间跨不少于七天，用日期来分析，如果时间跨度大于七天，则使用周数来进行分析，以此类推，即可以实现日期折叠为周，周折叠为月，月折叠为季度，季度折叠为年等等中心趋势度量的统计计算方法在这里就不过多展开了，大家可以仔细看一下课件上的公式，特别是基于分组数据的中位数差值计算方法。类似的，m 减去两倍的 c 格玛和 m 加上两倍的 c 格玛区间中包含了约95%的数据，而 m 减三倍的西格玛和 m 加上三倍的西格玛区间，包含了约99.7%的数据。

2023-10-05 15:56:30 124

原创【数据挖掘】第二章数据 2.1 数据对象和数据属性

下面来介绍数据属性的几个重要特征。假设对于学生的四种特长钢琴，绘画，舞蹈，篮球进行编码，可以由如下表示，钢琴映射成1000，绘画映射成0100，舞蹈映射成0010，篮球映射成0001这里可以很明显地看出，每个类别都只有一个一，其余全是零，one hot 编码在 python 中 l 里面有相应的函数，可以调用函数为 one hot in c ，我们来看课件上的这个代码段 x 等于002，一，23110001是输入的训练数据，通过调用网站的测试数据为 xt 102，那么得到的输入结果为011000010，

2023-10-05 15:41:52 278

xuepengfei123_的博客